By Gerd Gigerenzer
Summary
' El artículo de Gerd Gigerenzer critica la falta de atención prestada a los tamaños de efecto y el énfasis indebido en las pruebas de hipótesis nula en la investigación. A pesar de las recomendaciones de la Asociación Americana de Psicología, los tamaños de efecto rara vez se informan, lo que dificulta el cálculo del poder estadístico en las pruebas. Destaca un estudio de 1962 de Jacob Cohen, que reveló que los experimentos publicados en una revista de psicología importante solo tenían un 50% de posibilidad de detectar un efecto de tamaño medio, sin embargo, esto no afectó la actitud de los investigadores hacia los tamaños de efecto. De hecho, 24 años después, un porcentaje aún menor de artículos en la misma revista mencionaron el poder estadístico. Este artículo también aborda la afirmación de Richard Feynman de que las pruebas de hipótesis nula son inútiles sin hipótesis alternativas predefinidas y condena la práctica de 'sobreajuste' o minería retrospectiva de datos en busca de hallazgos significativos. La práctica común de ajustar modelos a datos hace que la posterior prueba de hipótesis sea cuestionable. El sobreajuste, el término utilizado para describir esta práctica de usar datos conocidos para ajustar un modelo con la esperanza de producir ciertos resultados, puede resultar en varianzas explicadas impresionantes, pero descuida la cantidad de ruido y rara vez implica probar y validar un modelo con nuevos datos. Las regresiones lineales múltiples se describen como una aplicación ritualística de estadísticas y el documento sugiere que las heurísticas simples (como probar un modelo con nuevos datos) a veces pueden proporcionar resultados más precisos. El autor compara la prevalencia de las pruebas de hipótesis nula con los rituales sociales, afirmando que esta mentalidad ritualística sofoca el pensamiento crítico sobre el proceso de investigación. El documento concluye enfatizando que los investigadores deben rechazar la adhesión irreflexiva a los rituales estadísticos y seleccionar cuidadosamente un procedimiento estadístico apropiado de la "caja de herramientas". Esto implica prestar la debida atención a los tamaños de efecto, predefinir hipótesis alternativas, evitar el sobreajuste y alejarse de la terca dependencia de las pruebas de hipótesis nula. Gigerenzer argumenta que la teoría estadística debe verse como un conjunto de herramientas que se deben aplicar de manera inteligente y juiciosa. Sugiere que el análisis de datos descriptivos a menudo es más útil que los procedimientos estadísticos decisivos. Desafiar el statu quo en la investigación académica promoverá el aumento del pensamiento estadístico. '
'Este artículo, escrito por Gerd Gigerenzer, habla sobre problemas con cómo usamos los números y los datos en la ciencia. Explica que muchos investigadores no están centrando lo suficiente en lo que realmente importa, el tamaño del efecto y el poder de sus experimentos. La American Psychological Association dice que los investigadores siempre deben informar a las personas sobre el tamaño del efecto y el poder estadístico, pero a menudo no lo hacen. Sin estos, es difícil saber si un resultado es realmente importante. Hace mucho tiempo, en 1962, un estudio encontró que solo había una probabilidad del 50/50 de que los investigadores notaran un cambio de tamaño medio en un experimento de psicología. Aunque muchos investigadores conocen este problema, siguen realizando los mismos procedimientos estadísticos sin pensar. Un científico famoso llamado Richard Feynman no le gustaba la forma en que a menudo hacemos experimentos científicos. Dijo que solo porque encontramos algo interesante, no significa mucho si solo podemos explicarlo después de que ya ha sucedido. Necesitamos predecir primero y luego ver si lo encontramos. El artículo también advierte sobre el 'overfitting'. Esto sucede cuando esperamos encontrar cosas importantes en nuestros datos y luego comenzamos a inventar historias para explicar lo que encontramos. Esta no es una buena forma de probar ideas. El artículo también habla sobre cómo deberíamos usar nuevos datos para verificar si nuestras ideas son correctas o incorrectas. En cambio, los científicos a menudo usan estadísticas complicadas para validar sus ideas. A veces, un análisis simple es mejor que uno complicado. Cuando los científicos analizan los resultados de sus experimentos, a menudo realizan un ritual (como seguir una receta para hornear un pastel), donde siguen las instrucciones sin realmente pensar en lo que están haciendo. El artículo sugiere que deberíamos tratar las estadísticas (la ciencia de usar datos) como un box de herramientas y elegir las herramientas correctas según lo que necesitemos. Deberíamos enseñar esto a los estudiantes para que puedan pensar con cuidado y tomar decisiones inteligentes. A veces, una herramienta simple es la mejor para el trabajo. Por último, el artículo enseña que no deberíamos seguir ciegamente las reglas en las estadísticas. Necesitamos centrarnos en el tamaño del efecto, hacer una predicción antes de realizar un experimento, no inventar historias después de un experimento y no seguir ciegamente los procedimientos estándar, como las pruebas de hipótesis nula. Necesitamos elegir cuidadosamente el mejor enfoque estadístico para el problema que se está estudiando. Para realizar estas mejoras, los investigadores necesitan ser valientes y cuestionar la forma en que se hacen las cosas, incluso si podría molestar a algunas personas.'
--------- Original ---------
"Statistical rituals largely eliminate statistical thinking in the social sciences. Rituals are indispensable for identification with social groups, but they should be the subject rather than the procedure of science. What I call the “null ritual” consists of three steps: (1) set up a statistical null hypothesis, but do not specify your own hypothesis nor any alternative hypothesis, (2) use the 5% significance level for rejecting the null and accepting your hypothesis, and (3) always perform this procedure."'Este artículo de Gerd Gigerenzer habla sobre problemas en cómo utilizamos las estadísticas en la investigación. Dice que muchos investigadores no prestan suficiente atención al tamaño del efecto, que nos indica la fortaleza de un resultado experimental. La American Psychological Association (APA) sugiere que esto siempre debería ser informado, pero a menudo no lo es. Cuando no conocemos el tamaño del efecto, es imposible calcular el poder estadístico de un experimento. Un antiguo estudio de 1962 descubrió que solo tenemos un 50% de posibilidades de detectar un efecto de tamaño medio en un experimento de psicología. Aunque muchas personas saben sobre este problema, realmente no ha cambiado cómo los investigadores hacen su trabajo. El famoso científico Richard Feynman criticó cómo a menudo analizamos los resultados de los experimentos. Señaló que solo porque encontramos algo que parece significativo y pasa una prueba estadística, no significa mucho si no hicimos una predicción para empezar. Eso es solo inventar una historia después del hecho. Gigerenzer también advierte sobre el “sobreajuste”. Esto es cuando seguimos analizando datos hasta que encontramos resultados importantes y luego inventamos historias para adaptarse a lo que encontramos. Solo porque podemos hacer que nuestros modelos se ajusten a los datos existentes, no significa que estemos probando muy bien nuestras ideas. Los procedimientos estadísticos realmente complicados incluso pueden ajustar el ruido aleatorio a nuestro modelo, por lo que a veces un análisis estadístico simple es lo mejor. Aún mejor es probar un modelo existente con nuevos datos. El artículo describe cómo los investigadores a menudo realizan un análisis estadístico de sus resultados experimentales como si estuvieran realizando un ritual. No están pensando cuidadosamente sobre lo que están haciendo, en su lugar están siguiendo ciegamente un procedimiento. Están ansiosos por encontrar un pequeño p-value, que determina si pueden publicar sus resultados o no. A la mayoría de los científicos se les enseña a creer que un pequeño p-value significa que un experimento es “significativo”, pero incluso el inventor del p-value aconsejó en contra de esto. El papel sugiere que deberíamos enseñar a los estudiantes a pensar en la teoría estadística como una caja de herramientas, donde diferentes herramientas deben ser utilizadas dependiendo de la situación. A veces, un análisis de datos simple y claro no solo es suficiente, sino mejor. Para solucionar este problema generalizado, los investigadores deben ser valientes y desafiar los métodos existentes, incluso si puede molestar a algunas personas. Al final, Gigerenzer aconseja que no deberíamos simplemente seguir rituales en estadística sin pensar. En lugar de eso, siempre deberíamos informar los tamaños de efecto, hacer predicciones antes de realizar experimentos, no inventar historias para adaptarse a los datos y no realizar ciegamente pruebas de hipótesis nula. Enfatiza que deberíamos usar un rango más amplio de procedimientos estadísticos y seleccionar cuidadosamente cuáles son apropiados para cada experimento. Gigerenzer llama a esto “pensamiento estadístico” y alienta a más investigadores a probarlo.'