An unhealthy obsession with p-values is ruining science


Summary

'Nel 2016, il meta-ricercatore John Ioannidis e i suoi colleghi hanno pubblicato un articolo che analizza 385.000 studi e gli abstract di oltre 1,6 milioni di articoli. I loro risultati mostrano che l'uso del p-value è in aumento nella ricerca. Il novantasei percento degli studi analizzati ha riportato un p-value significativo (inferiore a 0,05) nell'abstract. Tuttavia, solo il dieci percento degli studi rivisti ha riportato le dimensioni dell'effetto (una misura della forza di una relazione tra due variabili) e gli intervalli di confidenza (una misura dell'incertezza). Senza questo contesto, i p-values possono trarre in inganno. Questo è preoccupante perché i farmaci e i dispositivi medici sono giustificati sulla base della significatività statistica dei loro p-values. È sorprendentemente difficile trovare una definizione chiara di un p-value. L'American Statistical Association ha recentemente offerto la seguente: "Informalmente, un p-value è la probabilità sotto un modello statistico specificato che un riassunto statistico dei dati (ad esempio, la differenza media del campione tra due gruppi confrontati) sarebbe uguale o più estremo del suo valore osservato." I ricercatori usano i p-values per aiutare a determinare se le differenze tra i gruppi di test sono significative o no. Prima, definiscono un'ipotesi nulla, che prevede che non ci sarà differenza tra i gruppi. Poi, il ricercatore calcola un p-value utilizzando il loro dataset. Infine, viene calcolato un p-value, che indica la probabilità dei risultati osservati supponendo che l'ipotesi nulla sia vera. Un valore inferiore a 0,05 è generalmente interpretato come indicativo del fatto che l'ipotesi nulla può essere rigettata. Tuttavia, ciò non dice al ricercatore nulla su se il farmaco ha funzionato o meno. Il problema con i p-values è che spesso sono usati per decidere se uno studio dovrebbe essere pubblicato su una rivista o meno. Una buona ricerca potrebbe essere respinta a causa di un p-value alto. Questo potrebbe incoraggiare i ricercatori a giocare con il sistema o a riportare selettivamente risultati con un p-value piccolo. Questa pratica non etica si chiama p-hacking. Ron Wasserstein dell'American Statistical Association teorizza che l'uso dei p-values sia diventato diffuso perché semplificano un complesso processo decisionale in un singolo numero. Wasserstein nota anche che i p-values sono facili da calcolare nell'era moderna grazie al software. Il p-value viene usato per uno scopo per cui non è mai stato inteso, secondo quanto riportato da Regina Nuzzo. Lo statistico britannico Ronald Fisher ha inventato i p-values negli anni '20 per accelerare il processo di determinazione se un risultato meritava ulteriori esami. Doveva essere parte di un processo più grande che "mescolava dati e conoscenze di base per portare a conclusioni scientifiche." I p-values non sono mai stati intesi come la parola finale sulla significatività. Nel 2016, l'American Statistical Association ha aggiornato le loro linee guida sui p-values: I p-values possono indicare quanto siano incompatibili i dati con un modello statistico specifico. I p-values non misurano la probabilità che l'ipotesi studiata sia vera, o la probabilità che i dati siano stati prodotti solo per caso. Le conclusioni scientifiche e le decisioni aziendali o politiche non dovrebbero essere basate solo sul fatto che un p-value superi una determinata soglia. Un'adeguata inferenza richiede una piena registrazione e trasparenza. Un p-value, o significatività statistica, non misura l'ampiezza di un effetto o l'importanza di un risultato. Di per sé, un p-value non fornisce una buona misura dell'evidenza riguardante un modello o un'ipotesi. Nonostante la sua critica, Ioannidis non crede che i p-values debbano essere banditi dalla scienza. Invece, le riviste dovrebbero insistere su più informazioni su "dimensione dell'effetto, l'incertezza attorno alla dimensione dell'effetto, e quanto sia probabile [che i risultati siano] veri".'

Jump to original

'Molti scienziati utilizzano uno strumento di misurazione per decidere se i risultati del loro esperimento sono degni di nota. Questo strumento si chiama p-value ed è stato inventato negli anni '20. Ma alcuni ricercatori stanno denunciando un uso eccessivo del p-value. Pensano che in realtà potrebbe danneggiare la scienza. Uno studio del 2016 mostra che i p-value vengono utilizzati più spesso nella ricerca. Questo potrebbe portare a risultati potenzialmente confusi, fuorvianti o addirittura falsi negli esperimenti scientifici. Le medicine o la tecnologia medica potrebbero superare l'ispezione basandosi sui loro "buoni" p-value, anche se in realtà non funzionano molto bene. I ricercatori spesso usano i p-value per vedere se c'è una differenza tra due gruppi. Ad esempio, un gruppo che ha preso un farmaco per abbassare il colesterolo e un altro che non lo ha fatto. Il ricercatore vuole sapere se una qualsiasi differenza nei gruppi è stata causata dal farmaco o da qualche fattore sconosciuto. Usano un p-value per decidere se c'è una vera differenza o no. Per calcolare un p-value, un mucchio di dati sullo studio (come il numero di persone coinvolte e il cambiamento medio nei loro livelli di colesterolo) vengono inseriti in un calcolatore. Il p-value non può dire direttamente ai ricercatori se la medicina sta funzionando o no, ma può aiutarli a capire se i dati dello studio sono inattesi. Se il p-value è molto basso (meno di 0,05), significa che ottenere tali risultati per caso sarebbe improbabile. Ma non può dire nulla su perché c'era una differenza tra i gruppi. Gli scienziati hanno diverse preoccupazioni riguardo ai p-value. Alcuni scienziati usano trucchi per far sembrare migliori i loro p-value in modo che i loro studi possano essere pubblicati. C'è anche la preoccupazione che buoni studi non vengano pubblicati perché i loro p-value non sono abbastanza bassi. I p-value sono molto comuni oggigiorno perché sono così facili da calcolare con un computer e rendono semplice decidere quale ricerca è importante. Ma questo è un errore. Persino Ronald Fisher, l'inventore dei p-value, ha avvertito che non dovrebbero essere usati in questo modo. Invece, i ricercatori dovrebbero combinare i loro dati con quello che già sanno sul mondo. L'American Statistical Association ha recentemente condiviso consigli su come i p-value dovrebbero essere utilizzati: i p-value ci dicono solo quanto è probabile che i dati siano se l'esperimento non ha alcun effetto. I p-value non misurano se una spiegazione di un effetto è vera o no. Le decisioni nella scienza, nel business e nella politica non dovrebbero basarsi sui p-value. Una buona ricerca richiede la segnalazione di tutti i risultati onestamente. I p-value non misurano la grandezza di un effetto o l'importanza di un risultato. Un p-value da solo non può dire se l'esperimento di uno scienziato è riuscito o no. Nemmeno i più grandi critici dei p-value vogliono sbarazzarsene completamente. . Invece, gli scienziati devono parlare di più sulla grandezza degli effetti, su ciò che è sconosciuto in un esperimento e su quanto è probabile che la ricerca sia vera.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.

Jump to original

'Gli ricercatori utilizzano uno strumento di misura chiamato p-value per dimostrare che la loro ricerca è significativa. Il problema con i p-value è che molte persone pensano che un p-value significativo provi un'ipotesi, ma non è vero. Ci sono più fattori in gioco, ma gli scienziati si stanno sempre più affidando ai p-value per dimostrare che la loro ricerca è valida. Gli scienziati che si affidano troppo ai p-value potrebbero finire con risultati di studio fuorvianti. C'è il timore che i farmaci e i trattamenti medici potrebbero essere promossi e venduti se i loro p-value sono "buoni" -anche se i prodotti non funzionano bene. L'articolo spiega che i p-value vengono utilizzati quando un ricercatore sta cercando di capire se c'è una differenza tra due gruppi in studio. Per esempio, per scoprire se un farmaco abbassa il colesterolo, devono scoprire se un gruppo di persone che ha preso il farmaco è diverso da un altro gruppo che non ha preso il farmaco. Le statistiche non possono dire a un ricercatore se una differenza tra i gruppi è stata causata dal farmaco o da altri fattori sconosciuti. I p-value aiutano a determinare se la differenza statistica tra i gruppi era probabile o meno. Ecco come funziona: Il ricercatore definisce una "null hypothesis", che predice che il farmaco non influisce affatto sul colesterolo. Poi il p-value viene calcolato dai dati raccolti. Include informazioni come quante persone sono state testate e i cambiamenti medi nel colesterolo. Il p-value risultante è un numero tra 0 e 1. Un p-value basso indica che è improbabile che la differenza osservata sia avvenuta casualmente. Se il p-value è inferiore a 0.05, molti scienziati considerano il risultato "statisticamente significativo", indicando che il farmaco sta probabilmente facendo la differenza. Tuttavia, il p-value non può dirti se il farmaco funziona o no. Ti permette solo di sapere le probabilità di vedere questi dati se il farmaco non avesse alcun effetto. Le persone sono preoccupate che le riviste pubblichino solo studi con un p-value inferiore a 0.05. Questo significa che a volte ignorano ricerche importanti che non hanno un p-value abbastanza basso. Ancora peggio è che i ricercatori potrebbero manipolare i loro dati per ottenere p-value bassi, solo per essere pubblicati. Questo è chiamato "p-hacking". I p-value sono ovunque perché sono facili da calcolare con un computer e rendono semplice decidere se un risultato di ricerca è significativo o no. Ma Ronald Fisher, l'inventore dei p-value, ha avvertito che non dovrebbero essere utilizzati in questo modo. Invece, i ricercatori dovrebbero combinare i loro dati con ciò che già sanno sul mondo e prendere decisioni basate su un processo più fluido. L'American Statistical Association ha recentemente condiviso dei consigli su come i p-value dovrebbero essere utilizzati: I p-value ci dicono solo quanto è probabile che i dati siano se l'esperimento non ha alcun effetto (la null hypothesis è vera). I p-value non misurano se un'ipotesi è vera o meno. Le decisioni in scienza, business e politica non dovrebbero essere basate sui p-value. Una buona ricerca richiede di riportare tutti i risultati onestamente. I p-value non misurano la dimensione di un effetto o l'importanza di un risultato. Un p-value da solo non è una buona prova a favore di un'ipotesi o di una spiegazione. Nonostante le critiche, quest'articolo non dice che i p-value dovrebbero essere eliminati. Invece, gli scienziati hanno bisogno di parlare di più delle dimensioni degli effetti, di ciò che è sconosciuto su un esperimento, e di quanto è probabile che la ricerca sia vera. Homeschool: Titolo: Comprendere il Ruolo dei P-Value negli Studi Scientifici Descrizione del Corso: Questo curriculum per l'home schooling è progettato per aiutare i genitori a educare i loro figli sulla comprensione e l'interpretazione dei p-value, la loro importanza nella ricerca scientifica, e i problemi presentati dall'eccessiva dipendenza dai p-value nella scienza. Programma del Corso: 1. Definizioni e Fondamenti: - Cos'è un p-value? - Introduzione al Test delle Ipotesi - Comprensione della Significatività Statistica 2. Il Ruolo dei P-Value negli Studi Scientifici: - Case Study sull'Uso dei P-Value nella Ricerca Biomedica - Comprensione della Significatività Statistica negli Studi Scientifici - Interpretazione dei P-Value negli Studi Pubblicati 3. Limitazioni e Abuso dei P-Value: - Problemi con l'Eccessiva Dipendenza dai P-Value - Come i P-Value possono essere Ingannevoli - P-Value: una Misura della Significatività Statistica, non dell'Importanza Scientifica 4. Andare Oltre i P-Value: - Introduzione alle Dimensioni degli Effetti e agli Intervali di Confidenza - Importanza di Dare Contesto ai Risultati dei P-Value 5. P-Value in Applicazione Pratica: - Lavorare attraverso esempi di test delle ipotesi in biomedicina - Analizzare e interpretare i p-value dagli studi biomedici Metodi di Insegnamento del Corso: - Insegnamento in stile lezione - Video online - Quiz interattivi - Sessioni di risoluzione dei problemi - Discussioni di gruppo - Attività pratiche Alla fine di questo corso, i discenti capiranno il ruolo dei p-value nella ricerca scientifica, riconosceranno le loro limitazioni, e acquisiranno la capacità di valutare criticamente il loro utilizzo nella letteratura scientifica. Ai genitori sono fornite abbondanti risorse che rendono efficace e coinvolgente l'insegnamento di questo concetto a casa. Titolo: Comprensione del Test delle Ipotesi e dei P-Value: una Guida per l'Home Schooling per i Genitori Obiettivo: Equipaggiare i genitori con sufficienti conoscenze''e strumenti per insegnare ai loro figli sui test di ipotesi e p-value in modo semplificato. Risultati del corso: Alla fine del corso, l'apprendista dovrebbe essere in grado di: - Comprendere il concetto di ipotesi nulla nei test di ipotesi. - Familiarizzare con il processo di generazione di un p-value. - Calcolare il p-value in modo indipendente utilizzando i dati forniti. - Comprendere l'interpretazione dei p-values in relazione all'ipotesi nulla. Scomposizione del corso: Lezione 1: Introduzione ai test di ipotesi - Definire il concetto di test di ipotesi. - Spiegare l'importanza dei test di ipotesi nella ricerca scientifica. Lezione 2: Comprendere l'ipotesi nulla - Definire l'ipotesi nulla. - Discutere esempi di ipotesi nulla in diversi scenari. Lezione 3: Introduzione al p-value - Definire p-value e il suo ruolo nel sostenere o rifiutare l'ipotesi nulla. - Discutere esempi di calcoli di p-value in diverse situazioni. Lezione 4: Come calcolare i p-values - Discutere i dati necessari per calcolare un p-value. - Insegnare il metodo di inserimento dei numeri in una calcolatrice per ottenere un p-value. - Attività pratica: Calcola i p-values utilizzando i dati forniti. Lezione 5: Interpretare il p-value - Discutere cosa indicano p-values bassi e alti riguardo l'ipotesi nulla. - Discutere perché un p-value inferiore a 0,05 è considerato statisticamente significativo nella comunità medica. - Discutere le limitazioni dei p-values nel determinare la verità o la falsità dell'ipotesi originale. Lezione 6: p-values nella Pubblicazione di Ricerca - Discutere il ruolo dei p-values nella determinazione della pubblicabilità della ricerca. - Discutere gli impatti negativi potenziali di un'eccessiva dipendenza dai p-values sulla validità della ricerca come il "p-value hacking". Conclusione: Uso responsabile dei p-values - Discutere le linee guida rilasciate dall'American Statistical Association riguardo l'uso più accurato e conservativo del p-value. Materiali necessari: accesso a Internet, calcolatrici, dati di esempio per esercizio. Letture aggiuntive: 1. "Panoramica dell'ipotesi nulla e del p-value nei test di ipotesi" di Ronald Fisher. 2. "Metodo scientifico ed errori statistici" di Regina Nuzzo. Pubblicato da Nature. Programma per l'istruzione domestica: Statistiche pratiche per genitori insegnanti Settimana 1: - Definizione del colesterolo e della sua importanza nel corpo - Livelli di colesterolo e il loro impatto sulla salute umana Esercizi: - Ricerca su diversi alimenti che possono aumentare e diminuire il colesterolo. Settimana 2 e 3: - Introduzione agli esperimenti: Gruppo A (con medicina) vs Gruppo B (senza medicina) - Capire quali variabili e altri fattori sono negli esperimenti: Medicina e Colesterolo Esercizi: - Trovare esempi reali di esperimenti con due gruppi che differiscono in una o più variabili. Settimana 4 e 5: - Comprendere p-value: Introduzione, importanza e calcolo - Introduzione all'ipotesi nulla: l'assunzione per l'ipotesi e il suo ruolo nel calcolo del p-value - Comprendere il termine "Statisticamente significativo" e la sua rilevanza nella comunità medica Esercizio: - Esercitarsi nei calcoli del p-value con i numeri e i dati forniti, comprendendo cosa è statisticamente significativo Settimana 6-8: - Comprendere le limitazioni del p-value: cosa può e non può dirci - Analizzare criticamente il concetto di p-value: discussione sul documento di Ioannidis sulla crisi del p-value Esercizi: - Leggere e comprendere il documento di Ioannidis. Rispondere con pensieri e analisi individuali. Settimana 9-10: - Concetto di "P-dolatry" o il "culto della falsa significatività" - Comprendere come i p-values vengono utilizzati o abusati nelle pubblicazioni di ricerca - Discussione sul "p-value hacking" Discussione: - Discutere sulla dichiarazione di abuso del p-value da parte di Ron Wasserstein, direttore esecutivo dell'American Statistical Association. Settimana 11 e 12: - Riflessione sul ruolo della tecnologia nei calcoli del p-value - Comprendere la dipendenza dal p-value nel determinare il valore della ricerca Esercizio: - Discutere casi reali in cui il p-value è stato pesantemente utilizzato nella ricerca. Dibattito su se questa dipendenza sia giustificata. Durante questo corso, faremo uso di esempi reali, ci impegneremo in discussioni di pensiero critico e forniremo esercizi pratici per comprendere i metodi statistici e la loro importanza nel mondo della scienza e della medicina.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.