By Gerd Gigerenzer
Summary
'Este comentario editorial de Gerd Gigerenzer y Julian Marewski discute el sueño de un método universal de inferencia en ciencia. El gran matemático Gottfried Wilhelm Leibniz soñó con un cálculo universal en el que todas las ideas pudieran ser representadas por símbolos y discutidas sin discusiones. Predijo que el proyecto tardaría cinco años, pero, desafortunadamente, nunca se ha completado. En su lugar, se ha adoptado un sustituto, el p-value, como el método de inferencia preferido para la investigación científica. Los críticos han argumentado que los métodos Bayesianos son superiores y deberían ser el único medio de análisis en el futuro. Los autores de este artículo sostienen que ambos grupos están equivocados al buscar el "falso ídolo" de un método universal de inferencia. Los p-values han causado un gran daño al reemplazar las réplicas reales con inferencias estadísticas que pretenden estimar la replicabilidad. Grandes esfuerzos para realizar réplicas de estudios emblemáticos han mostrado que sorprendentemente pocos se replican a pesar de tener pequeños p-values. Los científicos de Amgen no pudieron replicar 47 de los 53 experimentos que proporcionaron objetivos para posibles medicamentos innovadores. Estos se consideraban estudios importantes y Amgen tenía un interés financiero en hacerlos funcionar. Otro análisis de réplicas en revistas de administración, finanzas y publicidad mostró que el 40-60% de las réplicas contradecían los resultados de los estudios originales. Los estadísticos han advertido sobre los p-values desde que existen, pero aún son prevalentes. Un investigador calculó el número promedio de p-values informados en trabajos publicados en una revista de negocios. Eran 99. Los autores incluso encontraron un p-value y un intervalo de confianza calculado para el número de sujetos en un estudio, ¡como si pudiera haber alguna incertidumbre al respecto! Esto es simplemente la aplicación inconsciente de las estadísticas facilitadas por el software de estadísticas fácil de usar. Por otro lado, los Bayesianos inicialmente fueron cuidadosos de aplicar sus métodos solo a situaciones de "mundo pequeño" donde la incertidumbre es mínima. Más adelante, su confianza en el método creció y propusieron el "Bayesianismo universal" que puede aplicarse a eventos repetitivos estadísticos o eventos singulares. Los autores de este artículo sugieren que el teorema de Bayes puede ser útil para determinar el riesgo, pero es de valor incierto en un mundo incierto. Los autores llaman al uso automático de la regla de Bayes en ciencia un "hermoso ídolo", pero advierten que solo debe ser una herramienta en un conjunto más grande. Un ejemplo de la exitosa aplicación de Bayes en medicina es calcular la probabilidad de que alguien tenga una enfermedad cuando ha dado positivo y se conoce la prevalencia de fondo de la enfermedad. Sin un objetivo anterior, como la prevalencia de una enfermedad estimada de manera confiable, Bayes se vuelve más subjetivo y menos confiable. Los autores tienen tres puntos clave para hacer en este comentario: No existe un método universal de inferencia científica, sino más bien un conjunto completo de herramientas que incluye estadísticas descriptivas, análisis de datos exploratorios y técnicas de modelado formal. Lo único que no pertenece en el conjunto de herramientas son los falsos ídolos. Si la esperada "Revolución Bayesiana" tiene lugar, un falso ídolo podría ser cambiado por otro. Los factores de Bayes podrían simplemente reemplazar los p-values como el nivel de significancia calculado automáticamente de la ciencia. Los métodos de análisis estadístico utilizados en ciencia cambian la ciencia misma y viceversa. Por ejemplo, a medida que las ciencias sociales enfatizaban cada vez más las estadísticas inferenciales, la importancia de la replicación y el error de medición disminuía. Los avances científicos pasados, como los de Isaac Newton y Charles Darwin, no hicieron uso alguno de las estadísticas inferenciales. Newton realizó experimentos cuidadosos para demostrar los efectos predichos por sus teorías. No se informaron estadísticas, a pesar de que estaba familiarizado con los métodos estadísticos e incluso los empleó para el control de calidad en su ocupación como director de la Real Casa de la Moneda de Londres. En el campo de la psicología, ahora dominado por estadísticas inferenciales, los avances previos de Piaget, Pavlov, Skinner y otros tampoco hicieron uso de ellos. Ni la inferencia estadística ni la Bayesiana jugaron un papel importante en la ciencia hasta la década de 1940. No mucho después, el "Ritual Nulo" se convirtió en el método predominante de inferencia, especialmente en las ciencias sociales. Consiste en tres pasos: Establecer una hipótesis nula (sin diferencia media o correlación cero) sin declarar su propia hipótesis. Use el 5% como una convención para rechazar el nulo. Siempre realiza este procedimiento. Este ritual se codificó en los manuales de publicación científica, que determinaron el estilo y el contenido de la investigación publicada. El ritual nulo es un híbrido del trabajo de Ronald Fisher y Neyman/Pearson, aunque viola las recomendaciones de ambos. Fisher una vez propuso el umbral del 5% como una convención, pero luego renunció a esta práctica. Aconsejó que los investigadores deberían: establecer una hipótesis nula que no necesariamente sea una hipótesis nula. Informar el nivel exacto de significancia encontrado. Use este procedimiento solo si se conoce poco sobre el problema que se está estudiando. Los autores concluyen su editorial con la sombría admisión de un beneficio del ritual nulo: una fuente constante de empleo.''para científicos promedio que seguirán publicando investigaciones poco creativas con poca innovación o riesgo.'
' Un gran sueño de los científicos es tener un día una manera de analizar cualquier investigación y determinar fácilmente si es un conocimiento confiable o no. Sin embargo, nadie ha logrado este objetivo, pero muchos científicos han actuado como si tuvieran un método universal. Su método preferido se llama un p-value. Se cree que un pequeño p-value significa que es más del 95% probable que el resultado que encuentran en un experimento ocurra de nuevo si repiten el experimento. Sin embargo, cuando los científicos repiten los experimentos de otros científicos, no están obteniendo el mismo resultado en más de la mitad del tiempo. Esto significa que gran parte del conocimiento científico no es tan preciso como pensábamos. Una gran parte del problema es que los científicos tienen software que facilita encontrar un p-value para cualquier dato que ingresen en su software. Estos científicos no son conscientes de que otros métodos podrían ser mejores para el tipo de investigación que están analizando. En cambio, están siguiendo lo que los autores de este editorial llaman el ritual nulo. El ritual nulo es cuando los datos se comparan con una hipótesis nula arbitraria (la expectativa de no efecto o correlación). Si los datos obtienen un pequeño p-value, entonces la hipótesis nula se rechaza a favor de la hipótesis del investigador (la expectativa de la idea del investigador que se está probando). Y la última parte del ritual es siempre realizar este procedimiento. Otros investigadores han promovido un método llamado teorema de Bayes, que piensan que es la única forma de analizar la investigación. Hay algunas aplicaciones realmente efectivas de Bayes, como averiguar si alguien está realmente enfermo cuando ha dado positivo en una enfermedad. Si es una enfermedad rara, hay una buena posibilidad de que el paciente esté bien y la prueba estuviera equivocada (un falso positivo en este caso). Los autores de este artículo aconsejan que los científicos deberían familiarizarse con una variedad más amplia de métodos estadísticos y utilizar cada herramienta de esta caja de herramientas cuando sea la correcta para el trabajo en cuestión. Hasta entonces, los científicos seguirán produciendo toneladas de investigación de calidad promedio.'
--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."'En la década de 1600, un famoso matemático llamado Gottfried Wilhelm Leibniz propuso una búsqueda de un método universal para analizar información. Creía que solo tomaría cinco años, pero este proyecto aún nunca se ha completado. Pero muchos científicos actúan como si tuvieran un método universal y lo aplican a cada problema de investigación que pueden. El método más común de análisis estadístico en ciencia, especialmente las ciencias sociales como psicología, gestión y finanzas, se llama un p-value. La mayoría de los científicos piensan que un pequeño p-value significa que existe una alta probabilidad (más del 95%) de que sus hallazgos de investigación se replicarán si se repite su experimento. Sin embargo, muchos proyectos de replicación a gran escala han mostrado que más de la mitad de la ciencia publicada no logra replicarse. Una importante compañía de biotecnología llamada Amgen no logró replicar 47 de 53 estudios académicos importantes que habían propuesto posibles nuevos tratamientos farmacológicos para el cáncer. Se ha desperdiciado mucho tiempo y dinero en la investigación basada en ciencia poco confiable. Los autores de este artículo escriben que los científicos siguen ciegamente un "null ritual" cuando se trata de interpretar los resultados de sus experimentos. Primero, comparan sus resultados con una hipótesis nula. La nula es una expectación de cero correlación o efecto. En segundo lugar, establecen un umbral arbitrario del 5% para determinar si sus hallazgos son significativos. Si este umbral se supera, rechazan la hipótesis nula en favor de su propia hipótesis. Y en tercer lugar, repiten este proceso en cada experimento. Este ritual se ha enseñado en los libros de texto de estadísticas para psicólogos y científicos sociales y es requerido por muchos editores. Incluso el inventor de la prueba de hipótesis, Ronald Fisher, aconseja en contra de este procedimiento. Dice que un umbral para la significancia debería ser diferente para cada proyecto de investigación. Una hipótesis nula no siempre tiene que ser una correlación cero. Y este procedimiento no debería hacerse todo el tiempo. Muchos grandes científicos del pasado, como Isaac Newton y Charles Darwin, nunca utilizaron p-values o cualquier tipo de estadísticas inferenciales. La mayoría de los avances en ciencia hasta la década de 1940, incluidas las ciencias sociales, no reportaban p-values o intervalos de confianza o ninguna de las estadísticas que se ven en todos lados hoy. En cambio, grandes científicos como Newton, Pavlov y Skinner realizaron experimentos para demostrar los efectos predichos por sus teorías. Los autores de este artículo aconsejan en contra de la búsqueda de un método universal de análisis. Lo llaman un "ídolo falso". Esto incluye un método popular llamado teorema de Bayes. Puede ser muy útil en algunas situaciones donde hay poca incertidumbre, pero no debería aplicarse automáticamente en todas las situaciones. Un ejemplo de dónde es útil es en el diagnóstico médico. Si una persona ha dado positivo en una enfermedad, no necesariamente es cierto que la persona realmente tiene la enfermedad, incluso si la prueba es muy confiable. Si la enfermedad es rara en la población, entonces hay una buena posibilidad de que la mayoría de las personas que dan positivo en realidad no tienen la enfermedad. En este caso, los falsos positivos son más comunes que los verdaderos positivos. Los autores concluyen que los científicos necesitan aprender una amplia variedad de métodos estadísticos y saber cuándo cada uno es la herramienta apropiada para el trabajo. De lo contrario, los científicos continuarán produciendo investigación que es de calidad promedio y que con frecuencia no logra replicarse.'