The Replacement for Hypothesis Testing

By David Trafimow


Summary

'Los autores de este documento, Briggs, Nguyen y Tramifow, reconocen el problema bien reconocido inherente con los p values y los factores de Bayes. Estos métodos estándar de la industria conducen a una sobre-certeza y a la creencia de que se ha demostrado la causa cuando no es así. Como solución, este documento propone un retorno a un método probabilístico tradicional que consta de tres pasos: Hacer predicciones directas de modelos a observables. Pesar la evidencia por su impacto en la fuerza predictiva. Verificar las predicciones contra la realidad. El deseo de cualquier científico que realiza una prueba de hipótesis es evaluar la verdad y utilidad de una hipótesis. Ambos métodos actuales quedan cortos en este objetivo. Los p values no pueden evaluar la verdad de una hipótesis por diseño, ya que sólo estaban destinados a falsificar una hipótesis. Los factores de Bayes se centran en parámetros no observados, por lo que pueden exagerar la fuerza de la evidencia. Un punto clave que hacen los autores es que los modelos estadísticos sólo pueden encontrar correlaciones entre observables, pero no pueden identificar relaciones causales. Esto es bien conocido entre los estadísticos, pero muchos investigadores creen que una prueba de hipótesis hace lo que su nombre implica: probar la validez de una hipótesis. A pesar de que un p value no puede juzgar la verdad o falsedad de una hipótesis, muchos científicos lo utilizan de manera ritualista (como describió Gigerenzer). Los autores creen que los p values están tan mal utilizados que deberían ser abandonados. Su crítica a los factores de Bayes es que se centran en los parámetros, cuya certeza siempre supera la certeza de los observables. Sin embargo, cualquier incertidumbre en los parámetros se alimenta en el modelo y amplifica la incertidumbre de los observables. La filosofía presentada en este documento enfatiza que la probabilidad es condicional y no causal. Se enfoca en los observables y en los factores medibles que influyen en los observables. Los autores comparten su propio esquema para hacer predicciones cuantificables, la siguiente fórmula: Pr(y ∈ s|X, D, M) La fórmula calcula la probabilidad de y, que es un miembro del subconjunto s (y ∈ s). Por ejemplo, y podría ser una cara específica de un dado y s sería el conjunto de caras: 1, 2...6. En el lado derecho de la barra vertical, tienes las condiciones del cálculo de probabilidad. D es opcional y representa cualquier dato existente relevante. M son las premisas que componen el modelo. Y X representa cualquier nuevo valor de medición. El proceso de construcción del modelo generalmente comienza con la definición de M. Cualquier premisa relevante para la probabilidad y sus relaciones lógicas con otras premisas debe ser definida. Este es un proceso que implica sustancialmente el juicio del investigador para determinar qué premisas son relevantes y cuáles se excluyen. Los autores lamentan que los investigadores rara vez prueban estas suposiciones. Los constructores de modelos deben probar sus modelos para ver si cada premisa adicional tiene un impacto medible en la probabilidad y en algún punto x. Si una premisa no tiene ningún efecto en las predicciones, entonces se rechaza. El documento señala que los ardientes defensores de los p values y los factores de Bayes no siguen estrictamente sus propias reglas. Para hacerlo, necesitarían calcular un p value para cada posible hipótesis antes de descartarla. Hay un suministro interminable de posibles hipótesis, por lo que este proceso nunca terminaría. El método presentado aquí es coherente con sus propias reglas. Una ventaja de este enfoque es que las estimaciones de los parámetros no observables son innecesarias. Este proceso basado en predicciones unifica las pruebas y la estimación. Este enfoque puede probar tanto el modelo en sí mismo como la relevancia de los datos que se introducen en él. Los autores presentan dos aplicaciones de este método. Ambas se adaptan de documentos que se habían escrito utilizando métodos convencionales. El primero fue un estudio sobre qué tan bien las personas recordaban las marcas mostradas en los anuncios antes de una película. Investigó si el género de la película afectaba el recuerdo de los participantes. Se detectó un p value significativo para el género de drama, pero no para los demás. El documento publicado destacó el hallazgo de que el recuerdo de la marca se potenciaba al ver películas dramáticas. El propio análisis de los autores descubrió diferencias en la probabilidad basadas en el sexo del espectador y el género de la película. Algunas de estas no se notaron en el análisis de los p values. Los autores dejan a los lectores de este documento decidir si estas diferencias son significativas. El segundo ejemplo hace predicciones de los salarios académicos basados en el departamento, sexo, años desde el doctorado y años de experiencia. Presentan un análisis ANOVA estándar y lo comparan con su propio análisis ANOVA predictivo. Los resultados son mucho más claramente interpretables. Y el método en sí es más flexible y puede responder mejor a las preguntas de interés para los tomadores de decisiones. Los autores concluyen que este enfoque predictivo, aunque superior a la prueba de hipótesis convencional, no resuelve todos los problemas. Los investigadores todavía anhelan la automatización y respuestas definitivas. Este método requiere más trabajo y no elige un número mágico que denote significancia. En lugar de eso, calcula fácilmente entendido.''valores de probabilidad, que pueden usarse para tomar decisiones. Un buen modelo facilitará buenas decisiones. Además, los mecanismos internos de un modelo se hacen transparentes mediante este método. El punto más importante es que los modelos deben ser probados y verificados. Esto no garantiza que una teoría sea verdadera o única, ya que siempre es posible generar más teorías para ajustarse a un conjunto de datos. Pero sí hace que sea probable que un modelo que ha funcionado bien en el pasado continúe siendo útil en el futuro.'

Jump to original

'Los científicos realizan experimentos para probar ideas llamadas hipótesis. Quieren saber si sus hipótesis son verdaderas. Para averiguarlo, a menudo utilizan matemáticas para calcular los p values o los factores de Bayes. Se supone que estos números le dicen a un científico si su hipótesis es verdadera o no. Pero hay grandes problemas con estas pruebas. Hacen que los científicos estén demasiado seguros de que demostraron algo, cuando realmente no lo hicieron. Por lo tanto, los autores de este paper quieren probar hipótesis de una manera antigua: Usar modelos para hacer predicciones. Juzgar la evidencia por cuánto mejora las predicciones. Verificar si las predicciones coinciden con la realidad. Los autores idearon una fórmula para hacer esto: Pr(y ∈ s|X, D, M) Esto calcula la probabilidad de que y esté en un conjunto s, basado en: X = nuevas mediciones, D = datos existentes, M = el modelo. Los autores incluso tienen una fórmula matemática que les ayuda a calcular la probabilidad de un evento o idea. Implica reunir mediciones antiguas, nuevas mediciones y cada factor que podría cambiar la probabilidad del resultado. Antes de que un científico incluso construya un modelo, tiene que decidir qué factores podrían hacer que funcione mejor y cuáles no hacen nada. Prueban cada factor para ver si mejora el modelo o no. Si no lo hace, lo eliminan. Este método es mejor porque prueba la calidad de un modelo mientras se está construyendo. Los autores dieron dos ejemplos utilizando su nuevo método en estudios antiguos. En ambos casos, este nuevo método reveló ideas que los métodos antiguos no captaron. A pesar de que es mejor, los científicos podrían no usarlo, porque requiere más trabajo y no da una respuesta sí/no. Pero da valores de probabilidad fáciles de entender que pueden ayudar a tomar decisiones. Un punto clave de este paper es que los modelos deben probarse contra el mundo real. Esto no garantiza que sus predicciones siempre serán correctas. Pero los modelos que han funcionado antes probablemente funcionarán de nuevo. En resumen, este nuevo método estadístico se centra en predicciones comprobables, no en demostrar hipótesis. Este método responde los tipos de preguntas que la gente real tiene y les ayuda a tomar mejores decisiones.'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Jump to original

'Los científicos a menudo utilizan pruebas estadísticas para tratar de probar si sus hipótesis son ciertas. Dos pruebas comunes son los p-values y los factores de Bayes. Pero estas pruebas tienen grandes problemas. Hacen que los científicos estén demasiado seguros de que han probado algo, cuando en realidad no lo han hecho. Por lo tanto, los autores de este artículo quieren volver a una antigua forma de probar hipótesis: hacer predicciones utilizando modelos. Ver cuánta evidencia respalda las predicciones. Verificar si las predicciones coinciden con la realidad. Cuando los científicos hacen una prueba, quieren saber si su hipótesis es verdadera y útil. Pero los p-values no pueden decir si una hipótesis es cierta. Y los factores de Bayes se centran en cosas que no podemos observar directamente. Por lo tanto, ambos métodos son defectuosos. Aquí está la fórmula que los autores sugieren en su lugar: Pr(y ∈ s|X, D, M) Esto calcula la probabilidad de que y sea parte de un conjunto s, basado en: X = nuevas mediciones, D = datos existentes, M = el modelo (que incluye todos los factores relevantes para la predicción). El primer paso en la construcción de un modelo es decidir qué factores, o premisas, podrían afectar la probabilidad. Prueba cada premisa para ver si la probabilidad cambia con esa premisa incluida. Si no cambia, deshazte de ella. Este método es mejor porque prueba el modelo a medida que lo construyes. Los autores muestran dos ejemplos adaptados de estudios antiguos. En ambos casos, este nuevo método les dio percepciones adicionales que los antiguos métodos pasaron por alto. Requiere más trabajo hacerlo de esta manera y no da una respuesta simple de "sí o no", por lo que los científicos podrían no intentarlo. Sin embargo, proporciona valores de probabilidad simples que pueden ser útiles para tomar decisiones. El punto clave de este artículo es que los modelos deben ser probados contra la realidad. Esto no garantiza que un modelo sea perfecto. Pero significa que los modelos que han funcionado antes probablemente funcionarán en el futuro. En resumen, este método estadístico se enfoca en predicciones comprobables en lugar de tratar de probar hipótesis. Les da a los científicos una herramienta para responder a las preguntas de investigación que la gente está realmente interesada en saber. Homeschool:'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Leave a Reply