The Replacement for Hypothesis Testing

By David Trafimow


Summary

'Gli autori di questo documento, Briggs, Nguyen e Tramifow, riconoscono il problema ben noto insito nei p values e nei fattori di Bayes. Questi metodi standard del settore portano a un'eccessiva certezza e alla convinzione che una causa sia stata dimostrata quando non lo è. Come soluzione, questo documento propone un ritorno a un metodo probabilistico tradizionale composto da tre passaggi: fare previsioni dirette dai modelli agli osservabili. Ponderare le prove in base al loro impatto sulla forza predittiva. Verificare le previsioni contro la realtà. Il desiderio di qualsiasi scienziato che conduce un test ipotesi è valutare la verità e l'utilità di un'ipotesi. Entrambi i metodi attuali non raggiungono questo obiettivo. I p values non possono valutare la verità di un'ipotesi per progettazione, poiché erano destinati solo a falsificare un'ipotesi. I fattori di Bayes si concentrano su parametri non osservati, quindi possono esagerare la forza delle prove. Un punto chiave che gli autori fanno è che i modelli statistici possono trovare solo correlazioni tra osservabili, ma non possono identificare relazioni causali. Questo è ben noto tra gli statistici, ma molti ricercatori credono che un test ipotesi faccia quello che il suo nome implica: testare la validità di un'ipotesi. Anche se un p value non può giudicare la verità o la falsità di un'ipotesi, molti scienziati lo usano in modo ritualistico (come descritto da Gigerenzer). Gli autori ritengono che i p values siano così abusati che dovrebbero essere abbandonati. La loro critica ai fattori di Bayes è che si concentrano sui parametri, la cui certezza supera sempre la certezza degli osservabili. Tuttavia, qualsiasi incertezza nei parametri si traduce nel modello e amplifica l'incertezza degli osservabili. La filosofia presentata in questo documento sottolinea che la probabilità è condizionale e non causale. Si concentra sugli osservabili e sui fattori misurabili che influenzano gli osservabili. Gli autori condividono il loro schema per fare previsioni quantificabili, la seguente formula: Pr(y ∈ s|X, D, M) La formula calcola la probabilità di y, che è un membro del sottoinsieme s (y ∈ s). Ad esempio, y potrebbe essere una faccia specifica di un dado e s sarebbe l'insieme di facce: 1, 2 ... 6. Sul lato destro della barra verticale, hai le condizioni del calcolo della probabilità. D è opzionale e rappresenta qualsiasi dato esistente rilevante. M sono le premesse che compongono il modello. E X rappresenta qualsiasi nuovo valore di misurazione. Il processo di costruzione del modello inizia di solito con la definizione di M. Qualsiasi premessa rilevante per la probabilità e le sue relazioni logiche con altre premesse devono essere definite. Questo è un processo che coinvolge sostanzialmente il giudizio del ricercatore per determinare quali premesse sono rilevanti e quali sono escluse. Gli autori deplorano che i ricercatori testino raramente queste ipotesi. I costruttori di modelli dovrebbero testare i loro modelli per vedere se ogni premessa aggiuntiva ha un impatto misurabile sulla probabilità y in qualche punto x. Se una premessa non ha alcun effetto sulle previsioni, viene respinta. Il documento sottolinea che gli ardenti sostenitori dei p values e dei fattori di Bayes non seguono rigorosamente le loro stesse regole. Per farlo, dovrebbero calcolare un p value per ogni possibile ipotesi prima di escluderla. C'è una fornitura infinita di ipotesi potenziali, quindi questo processo non finirebbe mai. Il metodo presentato qui è coerente con le sue stesse regole. Un vantaggio di questo approccio è che le stime dei parametri non osservabili sono superflue. Questo processo basato sulla previsione unifica il testing e la stima. Questo approccio può sia testare il modello stesso che la rilevanza dei dati che vengono immessi in esso. Gli autori presentano due applicazioni di questo metodo. Entrambi sono adattati da articoli che erano stati scritti utilizzando metodi convenzionali. Il primo era uno studio su quanto bene le persone ricordavano i marchi mostrati nelle pubblicità prima di un film. Ha indagato se il genere del film influenzasse il ricordo dei partecipanti. È stato rilevato un p value significativo per il genere drammatico, ma non per gli altri. L'articolo pubblicato ha esaltato il ritrovamento che il ricordo del marchio è stato potenziato guardando film drammatici. La propria analisi degli autori ha scoperto differenze di probabilità basate sul sesso dello spettatore e sul genere del film. Alcune di queste non sono state notate nell'analisi del p value. Gli autori lasciano ai lettori di questo documento di decidere se queste differenze sono significative. Il secondo esempio fa previsioni sui salari accademici basate su dipartimento, sesso, anni dal dottorato e anni di esperienza. Presentano un'analisi ANOVA standard e la confrontano con la loro propria analisi predittiva ANOVA. I risultati sono molto più chiaramente interpretabili. E il metodo stesso è più flessibile e può rispondere meglio alle domande di interesse per i decision maker. Gli autori concludono che questo approccio predittivo, sebbene superiore ai test ipotesi convenzionali, non risolve tutti i problemi. I ricercatori desiderano ancora automazione e risposte definite. Questo metodo richiede più lavoro e non produce un numero magico che denota la significatività. Invece, calcola facilmente capito''valori di probabilità, che possono essere utilizzati per prendere decisioni. Un buon modello faciliterà buone decisioni. Inoltre, il funzionamento interno di un modello è reso trasparente da questo metodo. Il punto più importante è che i modelli devono essere testati e verificati. Questo non è una garanzia che una teoria sia vera o unica, poiché è sempre possibile generare più teorie per adattarsi a un set di dati. Ma rende probabile che un modello che ha funzionato bene in passato continuerà ad essere utile in futuro.'

Jump to original

' Gli scienziati fanno esperimenti per testare idee chiamate ipotesi. Vogliono sapere se le loro ipotesi sono vere. Per scoprirlo, spesso usano la matematica per calcolare i p-value o i Bayes factors. Questi numeri dovrebbero dire a uno scienziato se la loro ipotesi è vera o no. Ma ci sono grandi problemi con questi test. Rendono gli scienziati troppo sicuri di aver dimostrato qualcosa, quando in realtà non l'hanno fatto. Quindi gli autori di questo articolo vogliono testare le ipotesi in un modo vecchio stile: usare modelli per fare previsioni. Giudicare le prove in base a quanto bene migliorano le previsioni. Verificare se le previsioni corrispondono alla realtà. Gli autori hanno elaborato una formula per fare questo: Pr(y ∈ s|X, D, M) Questo calcola la probabilità che y sia in un insieme s, basato su: X = nuove misurazioni, D = dati esistenti, M = il modello. Gli autori hanno persino una formula matematica che li aiuta a calcolare la probabilità di un evento o idea. Coinvolge la messa insieme di vecchie misurazioni, nuove misurazioni e ogni fattore che potrebbe cambiare la probabilità del risultato. Prima che uno scienziato costruisca un modello, deve decidere quali fattori potrebbero farlo funzionare meglio e quali non fanno nulla. Testano ogni fattore per vedere se migliora il modello o no. Se no, lo rimuovono. Questo metodo è migliore perché testa la qualità di un modello mentre viene costruito. Gli autori hanno dato due esempi usando il loro nuovo metodo su vecchi studi. In entrambi i casi, questo nuovo metodo ha rivelato intuizioni che i vecchi metodi hanno mancato. Anche se è migliore, gli scienziati potrebbero non usarlo, perché richiede più lavoro e non dà una risposta sì/no. Ma dà valori di probabilità facili da capire che possono aiutare a prendere decisioni. Un punto chiave di questo articolo è che i modelli devono essere testati rispetto al mondo reale. Questo non garantisce che le sue previsioni saranno sempre giuste. Ma i modelli che hanno funzionato prima probabilmente funzioneranno di nuovo. In sintesi, questo nuovo metodo statistico si concentra su previsioni testabili, non su ipotesi dimostrate. Questo metodo risponde ai tipi di domande che le persone reali hanno e li aiuta a prendere decisioni migliori.'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Jump to original

' Gli scienziati spesso utilizzano test statistici per cercare di dimostrare se le loro ipotesi sono vere. Due test comuni sono i p-values e i fattori di Bayes. Ma questi test hanno grandi problemi. Rendono gli scienziati troppo sicuri di aver dimostrato qualcosa, quando in realtà non lo hanno fatto. Quindi gli autori di questo documento vogliono tornare a un modo antiquato di testare le ipotesi: fare previsioni utilizzando modelli. Vedere quanto le prove supportano le previsioni. Verificare se le previsioni corrispondono alla realtà. Quando gli scienziati fanno un test, vogliono sapere se la loro ipotesi è vera e utile. Ma i p-values non possono dire se un'ipotesi è vera. E i fattori di Bayes si concentrano su cose che non possiamo osservare direttamente. Quindi entrambi i metodi sono fallaci. Ecco la formula che gli autori suggeriscono invece: Pr(y ∈ s|X, D, M) Questo calcola la probabilità che y faccia parte di un insieme s, basato su: X = nuove misurazioni, D = dati esistenti, M = il modello (che include tutti i fattori rilevanti per la previsione). Il primo passo nella costruzione di un modello è decidere quali fattori, o premesse, potrebbero influenzare la probabilità. Testare ogni premessa per vedere se la probabilità cambia con quella premessa inclusa. Se non lo fa, eliminatela. Questo metodo è migliore perché testa il modello mentre lo costruite. Gli autori mostrano due esempi adattati da vecchi studi. In entrambi i casi, questo nuovo metodo ha fornito loro ulteriori intuizioni che i vecchi metodi hanno perso. Ci vuole più lavoro per farlo in questo modo e non dà una semplice risposta "sì o no", quindi gli scienziati potrebbero non provarci. Tuttavia, fornisce semplici valori di probabilità che possono essere utili per prendere decisioni. Il punto chiave di questo documento è che i modelli devono essere testati contro la realtà. Questo non garantisce che un modello sia perfetto. Ma significa che i modelli che hanno funzionato in precedenza funzioneranno probabilmente in futuro. In sintesi, questo metodo statistico si concentra su previsioni testabili piuttosto che cercare di dimostrare ipotesi. Fornisce agli scienziati uno strumento per rispondere a domande di ricerca che le persone sono realmente interessate a conoscere. Homeschool:'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Leave a Reply