By Gerd Gigerenzer
Summary
'O artigo de Gerd Gigerenzer critica a falta de atenção dada aos tamanhos de efeito e o excessivo ênfase no teste de hipótese nula na pesquisa. Apesar das recomendações da American Psychological Association, os tamanhos de efeito raramente são relatados, dificultando o cálculo do poder estatístico nos testes. Ele destaca um estudo de 1962 de Jacob Cohen, que revelou que os experimentos publicados em uma importante revista de psicologia tinham apenas 50% de chance de detectar um efeito de tamanho médio, mas isso não afetou a atitude dos pesquisadores em relação aos tamanhos de efeito. Na verdade, 24 anos depois, uma porcentagem ainda menor de artigos na mesma revista mencionou poder estatístico. Este artigo também aborda a afirmação de Richard Feynman de que o teste de hipótese nula é sem sentido sem hipóteses alternativas predefinidas e condena a prática de 'overfitting' ou a extração retrospectiva de dados para descobertas significativas. A prática comum de ajustar modelos aos dados torna o teste de hipóteses subsequente questionável. Overfitting, o termo usado para descrever essa prática de usar dados conhecidos para ajustar um modelo na esperança de produzir certos resultados, pode resultar em variações explicadas impressionantes, mas negligencia a quantidade de ruído e raramente envolve o teste e validação de um modelo em novos dados. Regressões lineares múltiplas são descritas como uma aplicação ritualística da estatística e o artigo sugere que heurísticas simples (como testar um modelo em novos dados) podem às vezes fornecer resultados mais precisos. O autor compara a prevalência do teste de hipótese nula a rituais sociais, afirmando que essa mentalidade ritualística sufoca o pensamento crítico sobre o processo de pesquisa. O artigo conclui enfatizando que os pesquisadores devem evitar a aderência sem sentido aos rituais estatísticos e selecionar cuidadosamente um procedimento estatístico adequado da “caixa de ferramentas”. Isso envolve prestar a devida atenção aos tamanhos de efeito, pré-definir hipóteses alternativas, evitar o overfitting e se afastar da teimosia no teste de hipótese nula. Gigerenzer argumenta que a teoria estatística deve ser vista como um conjunto de ferramentas a serem aplicadas de forma inteligente e criteriosa. Ele sugere que a análise de dados descritiva é geralmente mais útil do que os procedimentos estatísticos decisivos. Desafiar o status quo na pesquisa acadêmica promoverá a ascensão do pensamento estatístico.'
'Este artigo, escrito por Gerd Gigerenzer, fala sobre problemas com a maneira como usamos números e dados na ciência. Ele explica que muitos pesquisadores não estão se concentrando suficientemente no que realmente importa, o tamanho do efeito e o poder de seus experimentos. A American Psychological Association diz que os pesquisadores sempre devem informar às pessoas sobre o tamanho do efeito e o poder estatístico, mas muitas vezes não o fazem. Sem eles, é difícil saber se um resultado é realmente importante. Há muito tempo, em 1962, um estudo descobriu que havia apenas uma chance de 50/50 dos pesquisadores notarem uma mudança de tamanho médio em um experimento de psicologia. Embora muitos pesquisadores saibam sobre este problema, eles continuam fazendo os mesmos procedimentos estatísticos automáticos. Um cientista famoso chamado Richard Feynman não gostava da maneira como frequentemente fazemos experimentos científicos. Ele disse que só porque encontramos algo interessante, não significa muito se só podemos explicá-lo depois que já aconteceu. Precisamos prever primeiro e depois ver se o encontramos. O artigo também alerta sobre 'overfitting'. Isso acontece quando esperamos encontrar coisas importantes em nossos dados e começamos a inventar histórias para explicar o que encontramos. Essa não é uma boa maneira de testar ideias. O artigo também fala sobre como devemos usar novos dados para verificar se nossas ideias estão certas ou erradas. Em vez disso, os cientistas costumam usar estatísticas complicadas para validar suas ideias. Às vezes, uma análise simples é melhor do que uma complicada. Quando os cientistas analisam os resultados de seus experimentos, eles costumam realizar um ritual (como seguir uma receita para assar um bolo), onde seguem as instruções sem realmente pensar no que estão fazendo. O artigo sugere que devemos tratar as estatísticas (a ciência de usar dados) como uma caixa de ferramentas, e escolher as ferramentas certas com base no que precisamos. Devemos ensinar isso aos alunos para que possam pensar com cuidado e fazer escolhas inteligentes. Às vezes, uma ferramenta simples é a melhor para o trabalho. Por último, o artigo ensina que não devemos apenas seguir cegamente as regras das estatísticas. Precisamos nos concentrar no tamanho do efeito, fazer uma previsão antes de realizar um experimento, não inventar histórias após um experimento, e não seguir cegamente os procedimentos padrão, como o teste de hipótese nula. Precisamos escolher cuidadosamente a melhor abordagem estatística para o problema que está sendo estudado. Para fazer essas melhorias, os pesquisadores precisam ser corajosos e questionar a maneira como as coisas são feitas, mesmo que isso possa incomodar algumas pessoas.'
--------- Original ---------
"Statistical rituals largely eliminate statistical thinking in the social sciences. Rituals are indispensable for identification with social groups, but they should be the subject rather than the procedure of science. What I call the “null ritual” consists of three steps: (1) set up a statistical null hypothesis, but do not specify your own hypothesis nor any alternative hypothesis, (2) use the 5% significance level for rejecting the null and accepting your hypothesis, and (3) always perform this procedure."' Este artigo de Gerd Gigerenzer fala sobre problemas em como usamos estatísticas na pesquisa. Ele afirma que muitos pesquisadores não estão prestando atenção suficiente no tamanho do efeito, que nos indica a força de um resultado experimental. A American Psychological Association (APA) sugere que isso deveria sempre ser relatado, mas muitas vezes não é. Quando não sabemos o tamanho do efeito, é impossível calcular o poder estatístico de um experimento. Um estudo antigo de 1962 constatou que só temos 50% de chance de identificar um efeito de tamanho médio em um experimento de psicologia. Embora muitas pessoas saibam sobre este problema, isso realmente não mudou a maneira como os pesquisadores fazem seu trabalho. O famoso cientista Richard Feynman criticou a forma como muitas vezes analisamos os resultados dos experimentos. Ele apontou que só porque encontramos algo que parece significativo e passa em um teste estatístico, isso não significa muito se não fizemos uma previsão para começar. Isso é apenas inventar uma história após o fato. Gigerenzer também adverte sobre o "overfitting". Isso acontece quando continuamos analisando dados até encontrar resultados importantes e, em seguida, inventamos histórias para se adequar ao que encontramos. Só porque podemos fazer nossos modelos se ajustarem aos dados existentes, não significa que estamos testando nossas ideias muito bem. Procedimentos estatísticos realmente complicados podem até ajustar ruído aleatório ao nosso modelo, então às vezes uma análise estatística simples é a melhor. Melhor ainda é testar um modelo existente em novos dados. O artigo descreve como os pesquisadores costumam conduzir uma análise estatística de seus resultados experimentais como se estivessem realizando um ritual. Eles não estão pensando cuidadosamente sobre o que estão fazendo, ao invés disso estão seguindo cegamente um procedimento. Eles estão ansiosos para encontrar um pequeno valor de p-value, que determina se eles podem publicar seus resultados ou não. A maioria dos cientistas é ensinada a acreditar que um pequeno p-value significa que um experimento é "significativo", mas até mesmo o inventor do p-value aconselhou contra isso. O artigo sugere que devemos ensinar aos alunos a pensar na teoria estatística como uma caixa de ferramentas, onde diferentes ferramentas devem ser usadas dependendo da situação. Às vezes, uma análise de dados simples e clara não é apenas suficiente, mas melhor. Para corrigir esse problema generalizado, os pesquisadores precisam ser corajosos e desafiar os métodos existentes, mesmo que isso possa incomodar algumas pessoas. No final, Gigerenzer aconselha que não devemos apenas seguir rituais em estatística sem pensar. Em vez disso, sempre devemos relatar os tamanhos dos efeitos, fazer previsões antes de realizar experimentos, não inventar histórias para se encaixar nos dados e não conduzir cegamente testes de hipóteses nulas. Ele enfatiza que devemos usar uma gama mais ampla de procedimentos estatísticos e selecionar cuidadosamente quais são apropriados para cada experimento. Gigerenzer chama isso de "pensamento estatístico" e encoraja mais pesquisadores a experimentá-lo.'