Surrogate Science: The Idol of a Universal Method for Scientific Inference

By Gerd Gigerenzer


Summary

'Este comentário editorial de Gerd Gigerenzer e Julian Marewski discute o sonho de um método universal de inferência na ciência. O grande matemático Gottfried Wilhelm Leibniz sonhava com um cálculo universal no qual todas as ideias pudessem ser representadas por símbolos e discutidas sem brigas. Ele previu que o projeto levaria cinco anos, mas infelizmente, nunca foi concluído. Em seu lugar, um substituto, o p-value, foi adotado como o método de inferência preferido para a pesquisa científica. Críticos argumentam que os métodos Bayesianos são superiores e deveriam ser o único meio de análise daqui para frente. Os autores deste paper argumentam que ambos os grupos estão errados ao buscar o "falso ídolo" de um método universal de inferência. P-values causaram grande dano ao substituir repetições reais por inferências estatísticas que supostamente estimam a replicabilidade. Grandes esforços para realizar repetições de estudos de referência mostraram que surpreendentemente poucos se replicam apesar de p-values pequenos. Cientistas da Amgen não conseguiram replicar 47 de 53 experiências que forneceram alvos para possíveis medicamentos revolucionários. Estes foram considerados grandes estudos e a Amgen tinha um interesse financeiro em fazê-los funcionar. Outra análise de repetições em revistas de gestão, finanças e publicidade mostrou que 40-60% das repetições contradizem os resultados dos estudos originais. Os estatísticos têm alertado sobre p-values desde que eles existem, mas eles ainda estão presentes. Um pesquisador calculou o número médio de p-values relatados em papers publicados em uma revista de negócios. Era 99. Os autores até encontraram um p-value e intervalo de confiança calculado para o número de sujeitos em um estudo, como se pudesse haver alguma incerteza sobre isso! Isso é simplesmente a aplicação descuidada de estatísticas facilitada por software de estatística amigável ao usuário. Os Bayesianos, por outro lado, inicialmente foram cuidadosos em aplicar seus métodos apenas a situações de "mundo pequeno" onde a incerteza é mínima. Mais tarde, sua confiança no método cresceu e eles propuseram o "Bayesianismo universal" que pode se aplicar a eventos repetitivos estatísticos ou eventos singulares. Os autores deste paper sugerem que o teorema de Bayes pode ser útil para determinar o risco, mas é de valor incerto em um mundo incerto. Os autores chamam o uso automático da regra de Bayes na ciência de um "belo ídolo", mas alertam que isso deveria ser apenas uma ferramenta em uma caixa de ferramentas maior. Um exemplo de aplicação bem-sucedida de Bayes na medicina é calcular a probabilidade de alguém ter uma doença quando eles testaram positivo e a prevalência de fundo da doença é conhecida. Sem um prior objetivo, como a prevalência confiavelmente estimada de uma doença, Bayes se torna mais subjetivo e menos confiável. Os autores têm três pontos-chave a fazer neste comentário: Não existe um método universal de inferência científica, mas sim uma caixa de ferramentas inteira que inclui estatísticas descritivas, análise de dados exploratórios e técnicas de modelagem formal. A única coisa que não pertence na caixa de ferramentas são falsos ídolos. Se a esperada "Revolução Bayesiana" acontecer, um falso ídolo pode ser trocado por outro. Os fatores de Bayes podem simplesmente substituir os p-values como o nível de significância calculado automaticamente da ciência. Os métodos de análise estatística usados na ciência mudam a própria ciência, e vice-versa. Por exemplo, à medida que as ciências sociais enfatizavam cada vez mais as estatísticas inferenciais, a importância da replicação e do erro de medida diminuiu. Descobertas científicas passadas, como as de Isaac Newton e Charles Darwin, não fizeram uso algum de estatísticas inferenciais. Newton realizou experimentos cuidadosos para demonstrar os efeitos previstos por suas teorias. Nenhuma estatística foi relatada, mesmo que ele estivesse familiarizado com os métodos estatísticos e até os usasse para controle de qualidade em seu cargo como mestre da London Royal Mint. No campo da psicologia, agora dominado por estatísticas inferenciais, descobertas anteriores de Piaget, Pavlov, Skinner e outros não fizeram uso delas. Nem a inferência estatística nem a Bayesiana tiveram qualquer papel importante na ciência até a década de 1940. Pouco depois, o "Ritual Nulo" se tornou o método predominante de inferência, especialmente nas ciências sociais. Consiste em três passos: estabelecer uma hipótese nula (sem diferença média ou correlação zero) sem declarar sua própria hipótese. Use 5% como convenção para rejeitar o nulo. Sempre execute esse procedimento. Este ritual se tornou codificado em manuais de publicação científica, que determinaram o estilo e a substância da pesquisa publicada. O ritual nulo é um híbrido do trabalho de Ronald Fisher e Neyman/Pearson, embora viole as recomendações de ambos. Fisher uma vez propôs o limite de 5% como convenção, mas depois renunciou a essa prática. Ele aconselhou que os pesquisadores deveriam: estabelecer uma hipótese nula que não é necessariamente uma hipótese nula. Reporte o exato nível de significância encontrado. Use este procedimento apenas se pouco for conhecido sobre o problema que está sendo estudado. Os autores concluem seu editorial com a admissão sombria de um benefício do ritual nulo: uma fonte constante de emprego.''para cientistas médios que continuarão a publicar pesquisas pouco criativas com pouca inovação ou risco.'

Jump to original

'Um grande sonho dos cientistas é ter um dia um meio de analisar qualquer pesquisa e facilmente descobrir se é um conhecimento confiável ou não. No entanto, ninguém nunca alcançou esse objetivo, mas muitos cientistas agem como se tivessem um método universal. Seu método preferido é chamado de p-value. Acredita-se que um pequeno p-value significa que é mais de 95% provável que o resultado que eles encontram em um experimento acontecerá novamente se repetirem o experimento. No entanto, quando os cientistas refazem os experimentos de outros cientistas, eles não estão conseguindo obter o mesmo resultado mais da metade do tempo. Isso significa que muito do conhecimento científico não é tão preciso quanto pensávamos. Grande parte do problema é que os cientistas têm software que facilita a encontrar um p-value para qualquer dado que eles inserem em seu software. Esses cientistas não estão cientes de que outros métodos podem ser melhores para o tipo de pesquisa que estão analisando. Em vez disso, eles estão seguindo o que os autores deste editorial chamam de null ritual. O null ritual é quando os dados são comparados a uma hipótese nula arbitrária (a expectativa de nenhum efeito ou correlação). Se os dados recebem um pequeno p-value, então a hipótese nula é rejeitada em favor da hipótese do pesquisador (a expectativa da ideia do pesquisador sendo testada). E a última parte do ritual é sempre realizar este procedimento. Outros pesquisadores promoveram um método chamado Bayes' theorem, que eles pensam ser a única maneira de analisar a pesquisa. Existem algumas aplicações realmente eficazes de Bayes, como descobrir se alguém está realmente doente quando testou positivo para uma doença. Se é uma doença rara, há uma boa chance de o paciente estar bem e o teste estar errado (um falso positivo neste caso). Os autores deste artigo aconselham que os cientistas devem se familiarizar com uma variedade maior de métodos estatísticos e usar cada ferramenta desta caixa de ferramentas quando for a certa para o trabalho em questão. Até então, os cientistas continuarão a produzir toneladas de pesquisas de qualidade média.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."

Jump to original

'Na década de 1600, um famoso matemático chamado Gottfried Wilhelm Leibniz propôs uma busca por um método universal de análise de informações. Ele pensou que isso levaria apenas cinco anos, mas este projeto ainda nunca foi concluído. No entanto, muitos cientistas agem como se tivessem um método universal e o aplicam a cada problema de pesquisa que podem. O método mais comum de análise estatística na ciência, especialmente nas ciências sociais, como psicologia, gestão e finanças, é chamado de p-value. A maioria dos cientistas acredita que um pequeno p-value significa que há uma alta probabilidade (mais de 95%) de que suas descobertas de pesquisa se repliquem se seu experimento for repetido. No entanto, muitos projetos de replicação em larga escala mostraram que mais da metade da ciência publicada não consegue ser replicada. Uma importante empresa de biotecnologia chamada Amgen não conseguiu replicar 47 de 53 grandes estudos acadêmicos que haviam proposto possíveis novos tratamentos de drogas para o câncer. Muito tempo e dinheiro foram desperdiçados na pesquisa com base em ciência pouco confiável. Os autores deste artigo escrevem que os cientistas seguem cegamente um “ritual nulo” quando se trata de interpretar os resultados de seus experimentos. Primeiro, eles comparam seus resultados a uma hipótese nula. A nula é uma expectativa de correlação zero ou efeito. Em segundo lugar, eles estabelecem um limite arbitrário de 5% para determinar se suas descobertas são significativas. Se este limiar for superado, eles rejeitam a hipótese nula em favor de sua própria hipótese. E em terceiro lugar, eles repetem esse processo em cada experimento. Este ritual tem sido ensinado em livros didáticos de estatística para psicólogos e cientistas sociais e exigido por muitos editores. Mesmo o inventor do teste de hipóteses, Ronald Fisher, aconselha contra este procedimento. Ele diz que um limiar para significância deveria ser diferente para cada projeto de pesquisa. Uma hipótese nula nem sempre tem que ser uma correlação zero. E este procedimento não deve ser feito o tempo todo. Muitos grandes cientistas do passado, como Isaac Newton e Charles Darwin, nunca usaram p-values ou qualquer tipo de estatística inferencial. A maioria das descobertas na ciência até os anos 1940, incluindo as ciências sociais, não relataram p-values ou intervalos de confiança ou qualquer uma das estatísticas que são vistas em toda parte hoje. Em vez disso, grandes cientistas como Newton, Pavlov e Skinner realizaram experimentos para demonstrar os efeitos previstos por suas teorias. Os autores deste artigo aconselham contra a busca de um método universal de análise. Eles chamam isso de "falso ídolo". Isso inclui um método popular chamado Teorema de Bayes. Pode ser muito útil em algumas situações em que há pouca incerteza, mas não deve ser aplicado automaticamente em todas as situações. Um exemplo de onde é útil é no diagnóstico médico. Se uma pessoa foi testada positivo para uma doença, não é necessariamente verdade que a pessoa realmente tenha a doença, mesmo que o teste seja muito confiável. Se a doença é rara na população, então há uma boa chance de que a maioria das pessoas que testem positivo na verdade não tenha a doença. Neste caso, falsos positivos são mais comuns do que verdadeiros positivos. Os autores concluem que os cientistas precisam aprender uma grande variedade de métodos estatísticos e saber quando cada um é a ferramenta apropriada para o trabalho. Caso contrário, os cientistas continuarão a produzir pesquisas que são de qualidade média e frequentemente falham em se replicar.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."