The Replacement for Hypothesis Testing

By David Trafimow


Summary

'Os autores deste artigo, Briggs, Nguyen e Tramifow, reconhecem o problema bem reconhecido inerente aos p values e aos fatores de Bayes. Esses métodos padrão da indústria levam a uma certeza excessiva e a crença de que a causa foi comprovada quando não foi. Como solução, este artigo propõe um retorno a um método probabilístico tradicional consistindo em três passos: Fazer previsões diretas de modelos para observáveis. Pesar as evidências pelo seu impacto na força preditiva. Verificar previsões contra a realidade. O desejo de qualquer cientista que realiza um teste de hipótese é avaliar a verdade e utilidade de uma hipótese. Ambos os métodos atuais não alcançam esse objetivo. Os p values não podem avaliar a verdade de uma hipótese por design, pois foram destinados apenas para falsificar uma hipótese. Os fatores de Bayes se concentram em parâmetros não observados, então podem exagerar a força das evidências. Um ponto-chave que os autores fazem é que os modelos estatísticos só podem encontrar correlações entre os observáveis, mas eles não podem identificar relações causais. Isso é bem conhecido entre os estatísticos, mas muitos pesquisadores acreditam que um teste de hipótese faz o que seu nome implica: testar a validade de uma hipótese. Mesmo que um p value não possa julgar a verdade ou falsidade de uma hipótese, muitos cientistas o utilizam de maneira ritualística (como descrito por Gigerenzer). Os autores acreditam que os p values são tão mal utilizados que devem ser abandonados. Sua crítica dos fatores de Bayes é que eles se concentram em parâmetros, cuja certeza sempre excede a certeza dos observáveis. No entanto, qualquer incerteza nos parâmetros alimenta o modelo e amplifica a incerteza dos observáveis. A filosofia apresentada neste artigo enfatiza que a probabilidade é condicional e não causal. Concentra-se em observáveis e fatores mensuráveis que influenciam os observáveis. Os autores compartilham seu próprio esquema para fazer previsões quantificáveis, a seguinte fórmula: Pr(y ∈ s | X, D, M) A fórmula calcula a probabilidade de y, que é um membro do subconjunto s (y ∈ s). Por exemplo, y poderia ser um lado específico de um dado e s seria o conjunto de lados: 1, 2…6. À direita da barra vertical, você tem as condições do cálculo de probabilidade. D é opcional e representa quaisquer dados existentes relevantes. M são as premissas que compõem o modelo. E X representa quaisquer novos valores de medição. O processo de construção do modelo geralmente começa com a definição de M. Qualquer premissa relevante para a probabilidade e suas relações lógicas com outras premissas deve ser definida. Este é um processo que envolve substancialmente o julgamento do pesquisador para determinar quais premissas são relevantes e quais são excluídas. Os autores lamentam que os pesquisadores raramente testem essas suposições. Os construtores de modelos devem testar seus modelos para ver se cada premissa adicional tem um impacto mensurável na probabilidade y em algum ponto x. Se uma premissa não tem efeito sobre as previsões, então ela é rejeitada. O artigo aponta que os defensores fervorosos dos p values e dos fatores de Bayes não seguem rigorosamente suas próprias regras. Para fazer isso, eles teriam que calcular um p value para cada hipótese possível antes de descartá-la. Há um suprimento interminável de hipóteses potenciais, então esse processo nunca terminaria. O método apresentado aqui é consistente com suas próprias regras. Uma vantagem dessa abordagem é que as estimativas de parâmetros não observáveis são desnecessárias. Este processo baseado em previsão unifica teste e estimativa. Essa abordagem pode tanto testar o modelo em si quanto a relevância dos dados inseridos nele. Os autores apresentam duas aplicações deste método. Ambas são adaptadas de artigos que foram escritos usando métodos convencionais. O primeiro foi um estudo sobre como as pessoas se lembravam das marcas mostradas nos anúncios antes de um filme. Investigou se o gênero do filme impactava o recall dos participantes. Foi detectado um p value significativo para o gênero drama, mas não para os outros. O artigo publicado divulgou a descoberta de que o recall da marca era aprimorado ao assistir filmes dramáticos. A análise dos próprios autores revelou diferenças na probabilidade baseada no sexo do espectador e no gênero do filme. Algumas destas não foram notadas na análise do p value. Os autores deixam para os leitores deste artigo decidir se essas diferenças são significativas. O segundo exemplo faz previsões de salários acadêmicos com base no departamento, sexo, anos desde o PhD e anos de experiência. Eles apresentam uma análise ANOVA padrão e a comparam com sua própria análise ANOVA preditiva. Os resultados são muito mais claramente interpretáveis. E o próprio método é mais flexível e pode responder melhor a perguntas de interesse para os tomadores de decisão. Os autores concluem que esta abordagem preditiva, embora superior ao teste de hipóteses convencional, não resolve todos os problemas. Os pesquisadores ainda anseiam por automação e respostas definitivas. Este método requer mais trabalho e não elicia um número mágico denotando significância. Em vez disso, calcula-se facilmente entendido''valores de probabilidade, que podem ser usados para tomar decisões. Um bom modelo facilitará boas decisões. Além disso, o funcionamento interno de um modelo é tornado transparente por este método. O ponto mais importante é que os modelos devem ser testados e verificados. Isso não garante que uma teoria seja verdadeira ou única, pois é sempre possível gerar mais teorias para se ajustar a um conjunto de dados. Mas isso torna provável que um modelo que tenha tido bom desempenho no passado continue a ser útil no futuro.'

Jump to original

'Os cientistas realizam experimentos para testar ideias chamadas hipóteses. Eles querem saber se suas hipóteses são verdadeiras. Para descobrir, eles frequentemente usam matemática para calcular p-values ou Bayes factors. Esses números supostamente devem dizer a um cientista se sua hipótese é verdadeira ou não. Mas existem grandes problemas com esses testes. Eles fazem os cientistas terem muita certeza de que provaram algo, quando na verdade não provaram. Então, os autores deste artigo querem testar hipóteses de uma maneira antiga: Use modelos para fazer previsões. Julgue a evidência por quão bem ela melhora as previsões. Verifique se as previsões correspondem à realidade. Os autores criaram uma fórmula para fazer isso: Pr(y ∈ s|X, D, M) Isso calcula a chance de y estar em um conjunto s, baseado em: X = novas medições, D = dados existentes, M = o modelo. Os autores até têm uma fórmula matemática que os ajuda a calcular a probabilidade de um evento ou ideia. Envolve juntar medições antigas, novas medições e cada fator que pode mudar a probabilidade do resultado. Antes de um cientista até mesmo construir um modelo, eles precisam decidir quais fatores podem fazê-lo funcionar melhor e quais não fazem nada. Eles testam cada fator para ver se ele torna o modelo melhor ou não. Se não, eles o removem. Este método é melhor porque testa a qualidade de um modelo enquanto ele está sendo construído. Os autores deram dois exemplos usando seu novo método em estudos antigos. Em ambos os casos, este novo método revelou insights que os antigos métodos perderam. Mesmo sendo melhor, os cientistas podem não usá-lo, porque dá mais trabalho e não fornece uma resposta sim / não. Mas ele dá valores de probabilidade fáceis de entender que podem ajudar a tomar decisões. Um ponto-chave deste artigo é que os modelos devem ser testados contra o mundo real. Isso não garante que suas previsões sempre estarão corretas. Mas modelos que funcionaram antes provavelmente funcionarão novamente. Em resumo, este novo método estatístico se concentra em previsões testáveis, não em provar hipóteses. Este método responde aos tipos de perguntas que pessoas reais têm e ajuda a tomar decisões melhores.'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Jump to original

'Cientistas frequentemente usam testes estatísticos para tentar provar se suas hipóteses são verdadeiras. Dois testes comuns são os p-values e os fatores de Bayes. Mas esses testes têm grandes problemas. Eles fazem os cientistas se sentirem muito confiantes de que provaram algo, quando na verdade não o fizeram. Então os autores deste artigo querem voltar a um método antigo de testar hipóteses: fazer previsões usando modelos. Veja quanto evidência suporta as previsões. Verifique se as previsões correspondem à realidade. Quando os cientistas fazem um teste, eles querem saber se sua hipótese é verdadeira e útil. Mas os p-values não podem dizer se uma hipótese é verdadeira. E os fatores de Bayes se concentram em coisas que não podemos observar diretamente. Portanto, ambos os métodos são falhos. Aqui está a fórmula que os autores sugerem em vez disso: Pr(y ∈ s|X, D, M) Isso calcula a probabilidade de y fazer parte de um conjunto s, com base em: X = novas medições, D = dados existentes, M = o modelo (que inclui todos os fatores relevantes para a previsão). O primeiro passo na construção de um modelo é decidir quais fatores, ou premissas, podem afetar a probabilidade. Teste cada premissa para ver se a probabilidade muda com essa premissa incluída. Se não mudar, descarte-a. Este método é melhor porque testa o modelo à medida que você o constrói. Os autores mostram dois exemplos adaptados de estudos antigos. Em ambos os casos, este novo método proporcionou insights extras que os métodos antigos perderam. Leva mais trabalho fazer dessa maneira e não dá uma resposta simples de "sim ou não", então os cientistas podem não tentar. No entanto, ele fornece valores de probabilidade simples que podem ser úteis para tomar decisões. O ponto principal deste artigo é que os modelos devem ser testados contra a realidade. Isso não garante que um modelo seja perfeito. Mas significa que modelos que funcionaram antes provavelmente funcionarão no futuro. Em resumo, este método estatístico se concentra em previsões testáveis em vez de tentar provar hipóteses. Ele fornece aos cientistas uma ferramenta para responder perguntas de pesquisa que as pessoas estão realmente interessadas em saber. Homeschool:'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Leave a Reply