Surrogate Science: The Idol of a Universal Method for Scientific Inference

By Gerd Gigerenzer


Summary

'Questo commento editoriale di Gerd Gigerenzer e Julian Marewski discute il sogno di un metodo universale di inferenza nella scienza. Il grande matematico Gottfried Wilhelm Leibniz sognava un calcolo universale in cui tutte le idee potessero essere rappresentate da simboli e discusse senza litigare. Predisse che il progetto avrebbe richiesto cinque anni, ma ahimè, non è mai stato completato. Al suo posto, un surrogato, il p-value, è stato adottato come il metodo preferito di inferenza per la ricerca scientifica. I critici hanno sostenuto che i metodi Bayesiani sono superiori e dovrebbero essere l'unico mezzo di analisi in futuro. Gli autori di questo articolo sostengono che entrambi i gruppi si sbagliano nel cercare il "falso idolo" di un metodo universale di inferenza. I p values hanno causato grandi danni sostituendo le effettive repliche con inferenze statistiche che pretendono di stimare la replicabilità. Grandi sforzi per condurre repliche di studi di riferimento hanno mostrato che sorprendentemente pochi si replicano nonostante i piccoli p values. Gli scienziati di Amgen non sono stati in grado di replicare 47 dei 53 esperimenti che fornivano target per potenziali farmaci rivoluzionari. Questi erano considerati studi di grande rilievo e Amgen aveva un interesse finanziario nel farli funzionare. Un'altra analisi di repliche in riviste di gestione, finanza e pubblicità ha mostrato che il 40-60% delle repliche contraddiceva i risultati degli studi originali. Gli statistici hanno avvertito sui p values fin da quando esistono, ma sono ancora prevalenti. Un ricercatore ha calcolato il numero medio di p values riportati in articoli pubblicati in una rivista di business. Era 99. Gli autori hanno addirittura trovato un p value e un intervallo di confidenza calcolati per il numero di soggetti in uno studio, come se ci potesse essere incertezza su questo! Questa è semplicemente l'applicazione senza pensieri di statistiche rese facili da software di statistica user-friendly. I Bayesiani, d'altra parte, erano inizialmente attenti ad applicare i loro metodi solo a situazioni di "piccolo mondo" dove l'incertezza è minima. Più tardi, la loro fiducia nel metodo è cresciuta e hanno proposto il "Bayesianismo universale" che può applicarsi a eventi ripetitivi statistici o eventi singolari. Gli autori di questo articolo suggeriscono che il teorema di Bayes può essere utile per determinare il rischio, ma ha un valore incerto in un mondo incerto. Gli autori chiamano l'uso automatico della regola di Bayes nella scienza un "bell'idolo", ma avvertono che dovrebbe essere solo uno strumento in una scatola di attrezzi più grande. Un esempio di applicazione di successo di Bayes in medicina è il calcolo della probabilità che qualcuno abbia una malattia quando ha avuto un risultato positivo e la prevalenza di background della malattia è nota. Senza un priori oggettivo, come la prevalenza di una malattia stimata in modo affidabile, Bayes diventa più soggettivo e meno affidabile. Gli autori hanno tre punti chiave da fare in questo commento: Non esiste un metodo universale di inferenza scientifica, ma piuttosto una intera scatola di attrezzi che include statistiche descrittive, analisi dei dati esplorativa e tecniche di modellizzazione formale. L'unica cosa che non appartiene alla scatola degli attrezzi sono i falsi idoli. Se la sperata "Rivoluzione Bayesian" si verifica, un falso idolo potrebbe essere scambiato con un altro. I fattori di Bayes potrebbero semplicemente sostituire i p values come livello di significatività calcolato automaticamente della scienza. I metodi di analisi statistica utilizzati nella scienza cambiano la scienza stessa e viceversa. Ad esempio, con l'aumentare dell'enfasi sulle statistiche inferenziali nelle scienze sociali, l'importanza della replicazione e dell'errore di misura è diminuita. Passate scoperte scientifiche, come quelle di Isaac Newton e Charles Darwin, non hanno fatto alcun uso di statistiche inferenziali. Newton condusse accurati esperimenti per dimostrare gli effetti predetti dalle sue teorie. Non sono state riportate statistiche, anche se era a conoscenza dei metodi statistici e li utilizzava anche per il controllo di qualità nel suo lavoro come maestro della Zecca Reale di Londra. Nel campo della psicologia, ora dominato dalle statistiche inferenziali, precedenti scoperte di Piaget, Pavlov, Skinner e altri non ne hanno fatto uso. Né l'inferenza statistica né quella Bayesian hanno svolto un ruolo importante nella scienza fino agli anni '40. Non molto tempo dopo, il "Rituale del Null" divenne il metodo predominante di inferenza, specialmente nelle scienze sociali. Consiste in tre passaggi: Stabilire un'ipotesi nulla (nessuna differenza media o correlazione zero) senza dichiarare la propria ipotesi. Usare il 5% come convenzione per rifiutare il null. Eseguire sempre questa procedura. Questo rituale è stato codificato nei manuali di pubblicazione scientifica, che determinavano lo stile e la sostanza della ricerca pubblicata. Il rituale del null è un ibrido dell'opera di Ronald Fisher e Neyman/Pearson, sebbene violi le raccomandazioni di entrambi. Fisher una volta propose la soglia del 5% come convenzione, ma in seguito rinnegò questa pratica. Consigliò che i ricercatori dovrebbero: stabilire un'ipotesi nulla che non è necessariamente un'ipotesi nulla. Riportare l'esatto livello di significatività trovato. Utilizzare questa procedura solo se si sa poco del problema in studio. Gli autori concludono il loro editoriale con l'ammissione tetra di un beneficio del rituale del null: una fonte costante di occupazione.''per scienziati medi che continueranno a pubblicare ricerca non creativa con poca innovazione o rischio.'

Jump to original

'Un grande sogno degli scienziati è quello di avere un giorno un metodo per analizzare qualsiasi ricerca e capire facilmente se si tratta di conoscenza affidabile o meno. Tuttavia, nessuno ha mai raggiunto questo obiettivo, ma molti scienziati hanno agito come se avessero un metodo universale. Il loro metodo preferito è chiamato p-value. Si crede che un p-value piccolo significhi che è più del 95% probabile che il risultato che trovano in un esperimento si ripeterà se ripeteranno l'esperimento. Tuttavia, quando gli scienziati rifanno gli esperimenti di altri scienziati, non riescono ad ottenere lo stesso risultato più della metà delle volte. Questo significa che molte delle conoscenze scientifiche non sono così accurate come una volta pensavamo. Una grande parte del problema è che gli scienziati hanno software che rende facile trovare un p-value per qualsiasi dato inseriscono nel loro software. Questi scienziati non sono consapevoli che altri metodi potrebbero essere migliori per il tipo di ricerca che stanno analizzando. Invece, stanno seguendo quello che gli autori di questo editoriale chiamano the null ritual. The null ritual è quando i dati vengono confrontati con un'ipotesi nulla arbitraria (l'aspettativa di nessun effetto o correlazione). Se i dati ottengono un p-value piccolo, allora l'ipotesi nulla è respinta a favore dell'ipotesi del ricercatore (l'aspettativa dell'idea del ricercatore che viene testata). E l'ultima parte del rituale è sempre eseguire questa procedura. Altri ricercatori hanno promosso un metodo chiamato Bayes' theorem, che pensano sia l'unico modo per analizzare la ricerca. Ci sono alcune applicazioni davvero efficaci di Bayes, come capire se qualcuno è davvero malato quando ha riscontrato un risultato positivo per una malattia. Se è una malattia rara, c'è una buona probabilità che il paziente stia bene e che il test sia sbagliato (un falso positivo in questo caso). Gli autori di questo articolo consigliano che gli scienziati dovrebbero familiarizzare con una varietà più ampia di metodi statistici e utilizzare ogni strumento di questa cassetta degli attrezzi quando è quello giusto per il lavoro da svolgere. Fino ad allora, gli scienziati continueranno a produrre tonnellate di ricerca di qualità media.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."

Jump to original

'Negli anni 1600, un famoso matematico di nome Gottfried Wilhelm Leibniz propose una ricerca per un metodo universale di analisi delle informazioni. Pensava che avrebbe richiesto solo cinque anni, ma questo progetto non è mai stato completato. Tuttavia, molti scienziati si comportano come se avessero un metodo universale e lo applicano a ogni problema di ricerca che possono. Il metodo più comune di analisi statistica nella scienza, specialmente nelle scienze sociali come la psicologia, il management e la finanza, è chiamato p-value. La maggior parte degli scienziati pensa che un piccolo p-value significhi che c'è un'alta probabilità (oltre il 95%) che i loro risultati di ricerca si riproducano se il loro esperimento viene ripetuto. Tuttavia, molti progetti di replicazione su larga scala hanno mostrato che più della metà della scienza pubblicata non riesce a replicare. Una grande azienda biotecnologica chiamata Amgen non è riuscita a replicare 47 dei 53 principali studi accademici che avevano proposto possibili nuovi trattamenti farmacologici per il cancro. Molto tempo e denaro sono stati sprecati inseguendo ricerche basate su scienza poco affidabile. Gli autori di questo articolo scrivono che gli scienziati seguono ciecamente un "rituale null" quando si tratta di interpretare i risultati dei loro esperimenti. Prima, confrontano i loro risultati con un'ipotesi nulla. L'ipotesi nulla è un'aspettativa di correlazione o effetto zero. Secondo, impostano una soglia arbitraria del 5% per determinare se i loro risultati sono significativi. Se questa soglia viene superata, respingono l'ipotesi nulla a favore della loro ipotesi. E terzo, ripetono questo processo in ogni esperimento. Questo rituale è stato insegnato nei manuali di statistica per psicologi e scienziati sociali e richiesto da molti editori. Anche l'inventore del test di ipotesi, Ronald Fisher, consiglia contro questa procedura. Dice che una soglia per la significatività dovrebbe essere diversa per ogni progetto di ricerca. Un'ipotesi nulla non deve sempre essere una correlazione zero. E questa procedura non dovrebbe essere fatta sempre. Molti grandi scienziati del passato, come Isaac Newton e Charles Darwin, non hanno mai usato p-values o qualsiasi tipo di statistica inferenziale. La maggior parte delle scoperte nella scienza fino agli anni '40, comprese le scienze sociali, non ha riportato p-values o intervalli di confidenza o alcuna delle statistiche che si vedono ovunque oggi. Invece, grandi scienziati come Newton, Pavlov e Skinner hanno condotto esperimenti per dimostrare gli effetti previsti dalle loro teorie. Gli autori di questo articolo sconsigliano la ricerca di un metodo universale di analisi. Lo chiamano un "falso idolo". Questo include un metodo popolare chiamato teorema di Bayes. Può essere molto utile in alcune situazioni in cui c'è poca incertezza, ma non dovrebbe essere applicato automaticamente in tutte le situazioni. Un esempio di dove è utile è nella diagnosi medica. Se una persona ha riscontrato un risultato positivo per una malattia, non è necessariamente vero che una persona ha effettivamente la malattia, anche se il test è molto affidabile. Se la malattia è rara nella popolazione, allora c'è una buona possibilità che la maggior parte delle persone che risultano positive in realtà non ha la malattia. In questo caso, i falsi positivi sono più comuni dei veri positivi. Gli autori concludono che gli scienziati hanno bisogno di imparare una vasta gamma di metodi statistici e sapere quando ciascuno è lo strumento appropriato per il lavoro. Altrimenti, gli scienziati continueranno a produrre ricerche di qualità media e che spesso non riescono a replicare.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."