By Gerd Gigerenzer
Summary
'Il lavoro di Gerd Gigerenzer critica la mancanza di attenzione prestata alle dimensioni dell'effetto e l'enfasi eccessiva sul testing dell'ipotesi nulla nella ricerca. Nonostante le raccomandazioni dell'American Psychological Association, le dimensioni dell'effetto vengono raramente riportate, ostacolando il calcolo del potere statistico nei test. Evidenzia uno studio del 1962 di Jacob Cohen, che ha rivelato che gli esperimenti pubblicati in una rivista di psicologia di grande importanza avevano solo il 50% di probabilità di rilevare un effetto di dimensioni medie, eppure ciò non ha influenzato l'atteggiamento dei ricercatori verso le dimensioni dell'effetto. In effetti, 24 anni dopo, una percentuale ancora più piccola di lavori nella stessa rivista menzionava il potere statistico. Questo lavoro affronta anche l'asserzione di Richard Feynman che il testing dell'ipotesi nulla è privo di significato senza ipotesi alternative predefinite e condanna la pratica di "overfitting" o estrazione retrospettiva di dati per risultati significativi. La pratica comune di adattare i modelli ai dati rende il successivo testing dell'ipotesi discutibile. L'overfitting, il termine usato per descrivere questa pratica di utilizzo di dati noti per adattare un modello nella speranza di produrre determinati risultati, può portare a varianze spiegate impressionanti, ma trascura l'entità del rumore e raramente prevede il test e la validazione di un modello su nuovi dati. Le regressioni lineari multiple sono descritte come un'applicazione ritualistica della statistica e il lavoro suggerisce che semplici euristiche (come il test di un modello su nuovi dati) possono talvolta fornire risultati più precisi. L'autore paragona la prevalenza del testing dell'ipotesi nulla ai rituali sociali, affermando che questa mentalità ritualistica soffoca il pensiero critico sul processo di ricerca. Il lavoro si conclude sottolineando che i ricercatori dovrebbero evitare l'adesione acritica ai rituali statistici e selezionare attentamente una procedura statistica appropriata dal "cassetto degli attrezzi". Questo implica prestare la giusta attenzione alle dimensioni dell'effetto, predefinire ipotesi alternative, evitare l'overfitting e allontanarsi dall'ostinato affidamento sul testing dell'ipotesi nulla. Gigerenzer sostiene che la teoria statistica dovrebbe essere vista come un insieme di strumenti da applicare in modo intelligente e giudizioso. Suggerisce che l'analisi dei dati descrittiva è spesso più utile delle procedure statistiche decisive. Sfidare lo status quo nella ricerca accademica promuoverà l'ascesa del pensiero statistico.'
'Questo articolo, scritto da Gerd Gigerenzer, parla dei problemi su come usiamo i numeri e i dati nella scienza. Spiega che molti ricercatori non si concentrano abbastanza su ciò che conta davvero, la dimensione dell'effetto e la potenza dei loro esperimenti. L'American Psychological Association afferma che i ricercatori dovrebbero sempre informare le persone sulla dimensione dell'effetto e la potenza statistica, ma spesso non lo fanno. Senza queste, è difficile sapere se un risultato è effettivamente importante. Moltissimo tempo fa, nel 1962, uno studio ha scoperto che c'era solo una possibilità su due che i ricercatori notassero un cambiamento di dimensioni medie in un esperimento di psicologia. Anche se molti ricercatori sanno di questo problema, continuano a fare le stesse procedure statistiche senza pensiero. Un famoso scienziato di nome Richard Feynman non gradiva il modo in cui spesso facciamo esperimenti scientifici. Diceva che solo perché troviamo qualcosa di interessante, non significa molto se possiamo spiegarlo solo dopo che è già accaduto. Dobbiamo prevedere prima e poi vedere se lo troviamo. L'articolo avverte anche dell' "overfitting". Questo accade quando speriamo di trovare cose importanti nei nostri dati e poi iniziamo a inventare storie per spiegare ciò che abbiamo trovato. Questo non è un buon modo per testare le idee. L'articolo parla anche di come dovremmo utilizzare nuovi dati per controllare se le nostre idee sono giuste o sbagliate. Invece, gli scienziati spesso usano statistiche complesse per validare le loro idee. A volte, un'analisi semplice è migliore di una complicata. Quando gli scienziati analizzano i risultati dei loro esperimenti, spesso svolgono un rituale (come seguire una ricetta per fare una torta), dove seguono le istruzioni senza pensare realmente a ciò che stanno facendo. L'articolo suggerisce che dovremmo trattare le statistiche (la scienza dell'uso dei dati) come una box, e scegliere gli strumenti giusti in base a ciò di cui abbiamo bisogno. Dovremmo insegnare questo agli studenti in modo che possano pensare attentamente e fare scelte intelligenti. A volte, uno strumento semplice è il migliore per il lavoro. Infine, l'articolo insegna che non dovremmo semplicemente seguire ciecamente le regole nelle statistiche. Dobbiamo concentrarci sulla dimensione dell'effetto, fare una previsione prima di eseguire un esperimento, non inventare storie dopo un esperimento, e non seguire ciecamente le procedure standard, come il test dell'ipotesi nulla. Dobbiamo scegliere attentamente l'approccio statistico migliore per il problema in studio. Per apportare questi miglioramenti, i ricercatori devono essere coraggiosi e mettere in discussione il modo in cui le cose sono fatte, anche se potrebbe disturbare alcune persone.'
--------- Original ---------
"Statistical rituals largely eliminate statistical thinking in the social sciences. Rituals are indispensable for identification with social groups, but they should be the subject rather than the procedure of science. What I call the “null ritual” consists of three steps: (1) set up a statistical null hypothesis, but do not specify your own hypothesis nor any alternative hypothesis, (2) use the 5% significance level for rejecting the null and accepting your hypothesis, and (3) always perform this procedure."'Questo articolo di Gerd Gigerenzer parla dei problemi in come usiamo le statistiche nella ricerca. Dice che molti ricercatori non stanno prestando abbastanza attenzione alla misura dell'effetto, che ci dice la forza di un risultato sperimentale. L'American Psychological Association (APA) suggerisce che questo dovrebbe sempre essere segnalato, ma spesso non lo è. Quando non conosciamo la dimensione dell'effetto, è impossibile calcolare la potenza statistica di un esperimento. Un vecchio studio del 1962 ha scoperto che abbiamo solo il 50% di possibilità di rilevare un effetto di dimensioni medie in un esperimento di psicologia. Anche se molte persone sanno di questo problema, non ha davvero cambiato il modo in cui i ricercatori svolgono il loro lavoro. Il famoso scienziato Richard Feynman ha criticato il modo in cui spesso analizziamo i risultati degli esperimenti. Ha sottolineato che solo perché troviamo qualcosa che sembra significativo e supera un test statistico, non significa molto se non abbiamo fatto una previsione per iniziare. Questo è solo inventare una storia dopo il fatto. Gigerenzer avverte anche del "sovrapposizionamento". Questo accade quando continuiamo ad analizzare i dati fino a quando non troviamo risultati importanti e poi inventiamo storie per adattare ciò che abbiamo trovato. Solo perché possiamo far aderire i nostri modelli ai dati esistenti, non significa che stiamo testando molto bene le nostre idee. Procedure statistiche davvero complicate possono anche adattare rumore casuale al nostro modello, quindi a volte un'analisi statistica semplice è la migliore. Ancora meglio è testare un modello esistente su nuovi dati. Il paper descrive come i ricercatori spesso conducono un'analisi statistica dei loro risultati sperimentali come se stessero eseguendo un rituale. Non stanno pensando attentamente a quello che stanno facendo, invece stanno seguendo ciecamente una procedura. Sono ansiosi di trovare un piccolo p-value, che determina se possono pubblicare i loro risultati o no. La maggior parte degli scienziati è stata insegnata a credere che un piccolo p-value significhi che un esperimento è "significativo", ma anche l'inventore del p-value ha avvertito contro questo. Il paper suggerisce che dovremmo insegnare agli studenti a pensare alla teoria statistica come a una cassetta degli attrezzi, dove diversi strumenti dovrebbero essere utilizzati a seconda della situazione. A volte, un'analisi dei dati semplice e chiara non è solo sufficiente, ma migliore. Per risolvere questo problema diffuso, i ricercatori devono essere coraggiosi e sfidare i metodi esistenti, anche se potrebbe sconvolgere alcune persone. Alla fine, Gigerenzer consiglia che non dovremmo semplicemente seguire rituali nelle statistiche senza pensare. Invece, dovremmo sempre segnalare le dimensioni dell'effetto, fare previsioni prima di eseguire esperimenti, non inventare storie per adattare i dati e non condurre ciecamente test di ipotesi nulla. Sottolinea che dovremmo usare una gamma più ampia di procedure statistiche e selezionare attentamente quelle appropriate per ogni esperimento. Gigerenzer chiama questo "pensiero statistico" e incoraggia più ricercatori a provarlo.'