An unhealthy obsession with p-values is ruining science


Summary

'Em 2016, o meta-pesquisador John Ioannidis e seus colegas publicaram um artigo analisando 385.000 estudos e os resumos de mais de 1,6 milhão de trabalhos. Suas descobertas mostram que o uso do p-value tem aumentado na pesquisa. Noventa e seis por cento dos estudos analisados relataram um p-value significativo (menor que 0,05) no resumo. No entanto, apenas dez por cento dos estudos revisados relataram tamanhos de efeito (uma medida da força de uma relação entre duas variáveis) e intervalos de confiança (uma medida de incerteza). Sem esse contexto, os p-values podem ser enganosos. Isso é preocupante porque medicamentos e dispositivos médicos são justificados com base na significância estatística de seus p-values. É surpreendentemente difícil encontrar uma definição clara de um p-value. A American Statistical Association recentemente ofereceu o seguinte: "Informalmente, um p-value é a probabilidade em um modelo estatístico especificado de que um resumo estatístico dos dados (por exemplo, a diferença média da amostra entre dois grupos comparados) seria igual ou mais extremo do que seu valor observado." Os pesquisadores usam p-values para ajudar a determinar se as diferenças entre os grupos de teste são significativas ou não. Primeiro, eles definem uma hipótese nula, que prevê que não haverá diferença entre os grupos. Em seguida, o pesquisador calcula um p-value usando seu conjunto de dados. Finalmente, um p-value é calculado, que informa a probabilidade dos resultados observados, assumindo que a hipótese nula é verdadeira. Um valor menor que 0,05 é geralmente interpretado para significar que a hipótese nula pode ser rejeitada. No entanto, isso não informa ao pesquisador se o medicamento funcionou ou não. O problema com os p-values é que eles são frequentemente usados para decidir se um estudo deve ser publicado em uma revista. Boas pesquisas podem ser rejeitadas devido a um p-value alto. Isso pode encorajar os pesquisadores a manipular o sistema ou a relatar seletivamente resultados com um pequeno p-value. Essa prática antiética é chamada de p-hacking. Ron Wasserstein, da American Statistical Association, teoriza que o uso de p-values tornou-se difundido porque eles simplificam um processo complexo de tomada de decisão em um único número. Wasserstein também observa que os p-values são fáceis de calcular na era moderna devido ao software. O p-value está sendo usado para um propósito que nunca foi planejado, de acordo com o relatório de Regina Nuzzo. O estatístico britânico Ronald Fisher inventou p-values na década de 1920 para acelerar o processo de determinação se um resultado justificava mais exame. Ele deveria ser parte de um processo maior que "combinava dados e conhecimento de fundo para levar a conclusões científicas." P-values nunca foram destinados a ser a palavra final sobre significância. Em 2016, a American Statistical Association atualizou suas diretrizes sobre p-values: Os p-values podem indicar quão incompatíveis os dados são com um modelo estatístico especificado. P-values não medem a probabilidade de que a hipótese estudada seja verdadeira, ou a probabilidade de que os dados tenham sido produzidos por acaso. Conclusões científicas e decisões de negócios ou políticas não devem ser baseadas apenas em se um p-value passa um limite específico. A inferência adequada requer relato completo e transparência. Um p-value, ou significância estatística, não mede o tamanho de um efeito ou a importância de um resultado. Por si só, um p-value não fornece uma boa medida de evidência a respeito de um modelo ou hipótese. Apesar de sua crítica, Ioannidis não acredita que p-values devam ser banidos da ciência. Em vez disso, as revistas devem insistir em mais informações sobre "tamanho do efeito, a incerteza em torno do tamanho do efeito e quão provável [os resultados são] de ser verdade".'

Jump to original

'Muitos cientistas usam uma ferramenta de medição para decidir se os resultados do seu experimento são notáveis. Essa ferramenta é chamada de p-value e foi inventada na década de 1920. Mas alguns pesquisadores estão apontando um uso excessivo do p-value. Eles acham que isso pode estar prejudicando a ciência. Um estudo de 2016 mostra que os p-values estão sendo usados cada vez mais na pesquisa. Isso pode levar a descobertas potencialmente confusas, enganosas ou até falsas em experimentos científicos. Medicamentos ou tecnologias médicas podem passar na inspeção com base em seus "bons" p-values - mesmo que não funcionem muito bem. Os pesquisadores geralmente usam p-values para ver se há diferença entre dois grupos. Por exemplo, um grupo que tomou um medicamento para baixar o colesterol e outro que não tomou. O pesquisador quer saber se alguma diferença nos grupos foi causada pelo medicamento ou algum fator desconhecido. Eles usam um p-value para decidir se há uma diferença real ou não. Para calcular um p-value, um monte de dados sobre o estudo (como o número de pessoas envolvidas e a mudança média em seus níveis de colesterol) são inseridos em uma calculadora. O p-value não pode dizer diretamente aos pesquisadores se o medicamento está funcionando ou não, mas pode ajudá-los a entender se os dados do estudo são inesperados. Se o p-value é muito baixo (menor que 0.05), isso significa que seria improvável obter tais resultados por acaso. Mas não pode dizer nada sobre por que houve uma diferença entre os grupos. Os cientistas têm várias preocupações sobre p-values. Alguns cientistas usam truques para fazer seus p-values parecerem melhores para que seus estudos possam ser publicados. Há também uma preocupação de que bons estudos não estejam sendo publicados porque seus p-values não são baixos o suficiente. P-values são realmente comuns hoje em dia porque são muito fáceis de calcular com um computador e facilitam a decisão do que é importante na pesquisa. Mas isso é um erro. Até mesmo Ronald Fisher, o inventor do p-value, alertou que eles não deveriam ser usados dessa maneira. Em vez disso, os pesquisadores devem combinar seus dados com o que já sabem sobre o mundo. A American Statistical Association compartilhou recentemente conselhos sobre como os p-values devem ser usados: P-values apenas nos dizem quão prováveis são os dados se o experimento não tiver nenhum efeito. P-values não medem se uma explicação de um efeito é verdadeira ou não. Decisões em ciência, negócios e política não devem ser baseadas em p-values. Boa pesquisa requer a divulgação de todos os resultados honestamente. P-values não medem o tamanho de um efeito ou a importância de um resultado. Um p-value por si só não pode dizer se o experimento de um cientista funcionou ou não. Mesmo os maiores críticos de p-values não querem se livrar completamente da ferramenta. Em vez disso, os cientistas precisam falar mais sobre o tamanho dos efeitos, o que é desconhecido sobre um experimento e quão provável é que a pesquisa seja verdadeira.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.

Jump to original

'Os pesquisadores usam uma ferramenta de medição chamada p-value para mostrar que suas pesquisas são significativas. O problema com os p-values é que muitas pessoas pensam que um p-value significativo comprova uma hipótese, mas isso não é verdade. Há mais fatores na mistura, mas os cientistas estão cada vez mais confiando nos p-values para mostrar que sua pesquisa é válida. Cientista que se baseiam excessivamente em p-values podem acabar com resultados de estudos enganosos. Há um medo de que medicamentos e tratamentos médicos possam ser promovidos e vendidos se seus p-values forem “bons” - mesmo se os produtos não funcionarem bem. O artigo explica que os p-values são usados quando um pesquisador está tentando descobrir se há uma diferença entre dois grupos sendo estudados. Por exemplo, para descobrir se um medicamento reduz o colesterol, eles precisam descobrir se um grupo de pessoas que tomou o medicamento é diferente de outro grupo que não tomou o medicamento. A estatística não pode dizer a um pesquisador se qualquer diferença entre os grupos foi causada pelo medicamento ou outros fatores desconhecidos. P-values ajudam a determinar se a diferença estatística entre grupos era provável ou não. É assim que funciona: O pesquisador define uma "hipótese nula", que prevê que o medicamento não afeta o colesterol de forma alguma. Então o p-value é calculado a partir dos dados que você coletou. Ele inclui informações como quantas pessoas foram testadas e as mudanças médias no colesterol. O p-value resultante é um número entre 0 e 1. Um p-value baixo é improvável que a diferença observada tenha acontecido ao acaso. Se o p-value for menor que 0,05, muitos cientistas consideram o resultado "estatisticamente significativo", indicando que o medicamento provavelmente está fazendo diferença. No entanto, o p-value não pode dizer se o medicamento funciona ou não. Ele apenas permite que você saiba as chances de ver esses dados se o medicamento não tivesse efeito. As pessoas estão preocupadas que as revistas só publiquem estudos com um p-value abaixo de 0.05. Isso significa que às vezes eles ignoram pesquisas importantes que não têm um p-value baixo o suficiente. Ainda pior é que os pesquisadores podem mexer em seus dados para obter p-values baixos, apenas para serem publicados. Isso é chamado de “p-hacking.” P-values estão em todos os lugares porque são fáceis de calcular com um computador e facilitam a decisão de se uma descoberta de pesquisa é significativa ou não. Mas Ronald Fisher, o inventor dos p-values, advertiu que eles não deveriam ser usados dessa maneira. Em vez disso, os pesquisadores deveriam combinar seus dados com o que já sabem sobre o mundo e tomar decisões com base em um processo mais fluido. A American Statistical Association recentemente compartilhou conselhos sobre como os p-values devem ser usados: P-values só nos dizem quão prováveis são os dados se o experimento não tiver nenhum efeito (a hipótese nula é verdadeira). P-values não medem se uma hipótese é verdadeira ou não. Decisões na ciência, negócios e política não devem ser baseadas em p-values. Uma boa pesquisa requer a apresentação de todos os resultados com honestidade. P-values não medem o tamanho de um efeito ou a importância de um resultado. Um p-value por si só não é uma boa evidência a favor de uma hipótese ou explicação. Apesar da crítica, este artigo não diz que os p-values devem ser eliminados. Em vez disso, os cientistas precisam falar mais sobre o tamanho dos efeitos, o que é desconhecido sobre um experimento e quão provável a pesquisa é de ser verdade. Homeschool: Título: Compreendendo o Papel dos P-Values em Estudos Científicos Descrição do Curso: Este currículo de homeschooling é projetado para ajudar os pais a educar seus filhos na compreensão e interpretação dos p-values, sua importância na pesquisa científica e os problemas apresentados pela dependência excessiva dos p-values na ciência. Esboço do Curso: 1. Definições e Fundamentos: - O que é um p-value? - Uma Introdução ao Teste de Hipóteses - Entendendo Significância Estatística 2. O Papel dos P-values em Estudos Científicos: - Estudos de Caso sobre o Uso de P-value em Pesquisa Biomédica - Entendendo Significância Estatística em Estudos Científicos - Interpretando P-values em Estudos Publicados 3. Limitações e Uso Indevido dos P-values: - Problemas com a Dependência Excessiva em P-values - Como P-values Podem ser Enganosos - P-value: Uma Medida de Significância Estatística, não de Importância Científica 4. Avançando Além dos P-values: - Introdução a Tamanhos de Efeito e Intervalos de Confiança - Importância de Dar Contexto às Descobertas de P-value 5. P-values em Aplicação Prática: - Trabalhe com exemplos de testes de hipóteses em biomedicina - Analise e interprete p-values de estudos biomédicos Métodos de Ensino do Curso: - Ensino no estilo palestra - Vídeos online - Quizzes interativos - Sessões de resolução de problemas - Discussões em grupo - Tarefas práticas Ao final deste curso, os alunos entenderão o papel dos p-values na pesquisa científica, reconhecerão suas limitações e adquirirão a habilidade de avaliar criticamente seu uso na literatura científica. Os pais são fornecidos com recursos amplos que tornam o ensino deste conceito em casa eficaz e envolvente. Título: Compreendendo o Teste de Hipóteses e P-Value: Um Guia de Homeschooling para Pais Objetivo: Equipar os pais com conhecimento suficiente''e ferramentas para ensinar seus filhos sobre teste de hipóteses e p-value de uma maneira simplificada. Resultados do Curso: Ao final do curso, o aprendiz deve ser capaz de; - Entender o conceito da hipótese nula no teste de hipóteses. - Familiarizar-se com o processo de geração de um p-value. - Calcular o p-value de forma independente usando dados fornecidos. - Entender a interpretação dos p-values em relação à hipótese nula. Estrutura do Curso: Aula 1: Introdução ao Teste de Hipóteses - Definir o conceito de teste de hipóteses. - Explicar a importância do teste de hipóteses na pesquisa científica. Aula 2: Entendendo a Hipótese Nula - Definir a hipótese nula. - Discutir exemplos da hipótese nula em diferentes cenários. Aula 3: Introdução ao P-value - Definir p-value e seu papel em suportar ou rejeitar a hipótese nula. - Discutir exemplos de cálculos de p-value em diferentes situações. Aula 4: Como Calcular P-values - Discutir os dados necessários para calcular um p-value. - Ensinar o método de inserir números em uma calculadora para obter um p-value. - Atividade prática: Calcular p-values usando dados fornecidos. Aula 5: Interpretando o P-value - Discutir o que baixos e altos p-values indicam em relação à hipótese nula. - Discutir por que um p-value menor que 0.05 é considerado estatisticamente significativo na comunidade médica. - Discutir as limitações dos p-values em determinar a verdade ou falsidade da hipótese original. Aula 6: P-values na Publicação de Pesquisas - Discutir o papel dos p-values em determinar a publicabilidade da pesquisa. - Discutir os possíveis impactos negativos de uma dependência excessiva dos p-values na validade da pesquisa, como o "p-value hacking". Conclusão: Uso Responsável dos P-values - Discutir as orientações divulgadas pela Associação Estatística Americana sobre o uso mais preciso e conservador do p-value. Materiais Necessários: Acesso à internet, calculadoras, dados de amostra para exercício. Leitura Adicional: 1. "Uma visão geral da hipótese nula e do P-value no Teste de Hipóteses" de Ronald Fisher. 2. "Scientific Method and Statistical Errors" de Regina Nuzzo. Publicado pela Nature. Currículo de Educação Domiciliar: Estatísticas Práticas para Professores Pais Semana 1: - Definição de Colesterol e sua importância no corpo - Níveis de Colesterol e seu impacto na saúde humana Exercícios: - Pesquisa sobre diferentes alimentos que podem aumentar e diminuir o colesterol. Semana 2 & 3: - Introdução a Experimentos: Grupo A (com medicamento) vs Grupo B (sem medicamento) - Entendendo quais variáveis e outros fatores estão nos experimentos: Medicamento e Colesterol Exercícios: - Descubra exemplos reais de experimentos com dois grupos que diferem em uma ou várias variáveis. Semana 4 & 5: - Entendendo p-value: Introdução, Importância e seu cálculo - Introduzindo Hipótese Nula: a suposição para hipótese e seu papel no cálculo do p-value - Compreendendo o termo "Estatisticamente Significativo" e sua relevância na comunidade médica Exercício: - Pratique cálculos de p-value com números e dados fornecidos, entendendo o que é estatisticamente significativo Semana 6-8: - Compreendendo as limitações do p-value: o que ele pode e não pode nos dizer - Analisando o conceito de p-value criticamente: discutindo o artigo de Ioannidis sobre a crise do p-value Exercícios: - Leia e entenda o artigo de Ioannidis. Responda com pensamentos e análises individuais. Semana 9-10: - Conceito de "P-dolatry" ou "adoração de falsa significância" - Compreendendo como os p-values são usados ou mal utilizados em publicações de pesquisa - Discutindo sobre "p-value hacking" Discussão: - Discuta sobre a declaração de mau uso de p-value por Ron Wasserstein, diretor executivo da Associação Americana de Estatística. Semana 11 & 12: - Refletindo sobre o papel da tecnologia nos cálculos do p-value - Entenda a dependência do p-value em determinar o valor da pesquisa Exercício: - Discutir casos reais onde o p-value foi fortemente utilizado na pesquisa. Debater se essa dependência é justificada. Durante este curso, faremos uso de exemplos da vida real, engajaremos em discussões de pensamento crítico e forneceremos exercícios práticos para entender os métodos estatísticos e sua importância no mundo da ciência e da medicina.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.