The Replacement for Hypothesis Testing

By David Trafimow


Summary

'quantities and requires reasoning about these quantities.

Les auteurs de cet article, Briggs, Nguyen et Tramifow, reconnaissent le problème bien reconnu inhérent aux p values et aux facteurs de Bayes. Ces méthodes standard de l'industrie conduisent à une sur-certitude et à la croyance que la cause a été prouvée alors qu'elle ne l'a pas été. Comme solution, cet article propose un retour à une méthode probabiliste traditionnelle consistant en trois étapes : Faire des prédictions directes des modèles aux observables. Peser les preuves en fonction de leur impact sur la force prédictive. Vérifier les prédictions contre la réalité. Le souhait de tout scientifique qui réalise un test d'hypothèse est d'évaluer la vérité et l'utilité d'une hypothèse. Les deux méthodes actuelles ne répondent pas à cet objectif. Les p values ne peuvent pas évaluer la vérité d'une hypothèse par conception, car elles n'ont été conçues que pour réfuter une hypothèse. Les facteurs de Bayes se concentrent sur des paramètres non observés, ils peuvent donc exagérer la force des preuves. Un point clé que les auteurs soulignent est que les modèles statistiques ne peuvent trouver que des corrélations entre des observables, mais ils ne peuvent pas identifier des relations causales. C'est bien connu parmi les statisticiens, mais de nombreux chercheurs croient qu'un test d'hypothèse fait ce que son nom implique : tester la validité d'une hypothèse. Bien qu'une p value ne puisse pas juger de la vérité ou de la fausseté d'une hypothèse, de nombreux scientifiques l'utilisent d'une manière rituelle (comme décrit par Gigerenzer). Les auteurs pensent que les p values sont tellement mal utilisées qu'elles devraient être abandonnées. Leur critique des facteurs de Bayes est qu'ils se concentrent sur des paramètres, dont la certitude dépasse toujours la certitude des observables. Cependant, toute incertitude dans les paramètres se répercute dans le modèle et amplifie l'incertitude des observables. La philosophie présentée dans cet article souligne que la probabilité est conditionnelle et non causale. Elle se concentre sur les observables et les facteurs mesurables qui influencent les observables. Les auteurs partagent leur propre schéma pour faire des prédictions quantifiables, la formule suivante : Pr(y ∈ s|X, D, M) La formule calcule la probabilité de y, qui est un membre du sous-ensemble s (y ∈ s). Par exemple, y pourrait être une face spécifique d'un dé et s serait l'ensemble des faces : 1, 2...6. À droite de la barre verticale, vous avez les conditions du calcul de la probabilité. D est facultatif et représente toutes les données existantes pertinentes. M est les prémisses qui composent le modèle. Et X représente toute nouvelle valeur de mesure. Le processus de construction de modèle commence généralement par la définition de M. Toute prémisse pertinente pour la probabilité et ses relations logiques avec d'autres prémisses doit être définie. C'est un processus qui implique largement le jugement du chercheur pour déterminer quelles prémisses sont pertinentes et lesquelles sont exclues. Les auteurs déplorent que les chercheurs testent rarement ces hypothèses. Les constructeurs de modèles devraient tester leurs modèles en vérifiant si chaque prémisse supplémentaire a un impact mesurable sur la probabilité y à un certain point x. Si une prémisse n'a pas d'effet sur les prédictions, alors elle est rejetée. L'article souligne que les ardents défenseurs des p values et des facteurs de Bayes ne suivent pas strictement leurs propres règles. Pour ce faire, ils devraient calculer une p value pour chaque hypothèse possible avant de l'exclure. Il existe une offre infinie d'hypothèses potentielles, donc ce processus ne se terminerait jamais. La méthode présentée ici est cohérente avec ses propres règles. Un avantage de cette approche est que les estimations des paramètres non observables sont inutiles. Ce processus basé sur la prédiction unifie les tests et les estimations. Cette approche peut à la fois tester le modèle lui-même et la pertinence des données qui y sont intégrées. Les auteurs présentent deux applications de cette méthode. Les deux sont adaptées de papiers qui avaient été rédigés en utilisant des méthodes conventionnelles. Le premier était une étude sur la façon dont les gens se souvenaient des marques présentées dans les publicités avant un film. Il a été étudié si le genre du film avait un impact sur la mémoire des participants. Une p value significative a été détectée pour le genre du drame, mais pas pour les autres. L'article publié vantait la constatation que le rappel de la marque était amélioré par le visionnage de films dramatiques. L'analyse propre des auteurs a révélé des différences de probabilité en fonction du sexe du spectateur et du genre du film. Certaines de ces différences n'avaient pas été remarquées dans l'analyse des p values. Les auteurs laissent aux lecteurs de cet article le soin de décider si ces différences sont significatives. Le deuxième exemple fait des prédictions de salaires académiques en fonction du département, du sexe, des années depuis le doctorat et des années d'expérience. Ils présentent une analyse ANOVA standard et la comparent à leur propre analyse ANOVA prédictive. Les résultats sont beaucoup plus clairement interprétables. Et la méthode elle-même est plus flexible et peut mieux répondre aux questions d'intérêt pour les décideurs. Les auteurs concluent que cette approche prédictive, bien qu'elle soit supérieure aux tests d'hypothèses conventionnels, ne résout pas tous les problèmes. Les chercheurs aspirent encore à l'automatisation et à des réponses définitives. Cette méthode exige plus de travail et n'évoque pas un nombre magique dénotant une importance. Au lieu de cela, elle calcule facilement des quantités comprises et nécessite une réflexion sur ces quantités.''valeurs de probabilité, qui peuvent être utilisées pour prendre des décisions. Un bon modèle facilitera de bonnes décisions. De plus, les rouages internes d'un modèle sont rendus transparents par cette méthode. Le point le plus important est que les modèles doivent être testés et vérifiés. Ce n'est aucune garantie qu'une théorie est vraie ou unique, car il est toujours possible de générer plus de théories pour correspondre à un ensemble de données. Mais cela rend probable qu'un modèle qui a bien fonctionné par le passé continuera à être utile à l'avenir.'

Jump to original

'Les scientifiques réalisent des expériences pour tester des idées appelées hypothèses. Ils veulent savoir si leurs hypothèses sont vraies. Pour ce faire, ils utilisent souvent des mathématiques pour déterminer des p-values ou des facteurs de Bayes. Ces chiffres sont censés indiquer à un scientifique si son hypothèse est vraie ou non. Mais il y a de gros problèmes avec ces tests. Ils rendent les scientifiques beaucoup trop sûrs d'avoir prouvé quelque chose, alors qu'ils ne l'ont pas vraiment fait. Ainsi, les auteurs de ce document veulent tester des hypothèses à l'ancienne : Utiliser des modèles pour faire des prédictions. Juger des preuves en fonction de leur capacité à améliorer les prédictions. Vérifier si les prédictions correspondent à la réalité. Les auteurs ont élaboré une formule pour cela : Pr(y ∈ s|X, D, M) Ceci calcule la probabilité que y soit dans un ensemble s, sur la base de : X = nouvelles mesures, D = données existantes, M = le modèle. Les auteurs ont même une formule mathématique qui les aide à calculer la probabilité d'un événement ou d'une idée. Elle implique de rassembler les anciennes mesures, les nouvelles mesures et tous les facteurs qui pourraient modifier la probabilité du résultat. Avant qu'un scientifique ne construise un modèle, il doit déterminer quels facteurs pourraient le faire fonctionner mieux et ceux qui n'ont aucun effet. Ils testent chaque facteur pour voir s'il améliore le modèle ou non. Si ce n'est pas le cas, ils le retirent. Cette méthode est meilleure parce qu'elle teste la qualité d'un modèle pendant qu'il est en cours de construction. Les auteurs ont donné deux exemples d'utilisation de leur nouvelle méthode sur des études anciennes. Dans les deux cas, cette nouvelle méthode a révélé des insights que les anciennes méthodes n'avaient pas relevés. Bien qu'elle soit meilleure, les scientifiques pourraient ne pas l'utiliser, parce qu'elle nécessite plus de travail et ne donne pas une réponse oui/non. Mais elle donne des valeurs de probabilité faciles à comprendre qui peuvent aider à prendre des décisions. Un point clé de cet article est que les modèles doivent être testés contre le monde réel. Cela ne garantit pas que ses prédictions seront toujours correctes. Mais les modèles qui ont fonctionné auparavant fonctionneront probablement à nouveau. En résumé, cette nouvelle méthode statistique se concentre sur des prédictions testables, pas sur la preuve des hypothèses. Cette méthode répond aux types de questions que les vraies personnes se posent et les aide à prendre de meilleures décisions.'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Jump to original

'Les scientifiques utilisent souvent des tests statistiques pour essayer de prouver si leurs hypothèses sont vraies. Deux tests courants sont les p values et les facteurs de Bayes. Mais ces tests ont de gros problèmes. Ils rendent les scientifiques beaucoup trop confiants qu'ils ont prouvé quelque chose, alors qu'ils ne l'ont pas réellement. Ainsi, les auteurs de ce document veulent revenir à une ancienne méthode de test des hypothèses : Faire des prédictions à l'aide de modèles. Voir combien de preuves soutiennent les prédictions. Vérifier si les prédictions correspondent à la réalité. Lorsque les scientifiques font un test, ils veulent savoir si leur hypothèse est vraie et utile. Mais les p-values ne peuvent pas dire si une hypothèse est vraie. Et les facteurs de Bayes se concentrent sur des choses que nous ne pouvons pas observer directement. Donc, les deux méthodes sont imparfaites. Voici la formule que les auteurs suggèrent à la place : Pr(y ∈ s|X, D, M) Cela calcule la probabilité que y fasse partie d'un ensemble s, sur la base de : X = nouvelles mesures, D = données existantes, M = le modèle (qui comprend tous les facteurs pertinents pour la prédiction). La première étape de la construction d'un modèle est de décider quels facteurs, ou prémisses, pourraient affecter la probabilité. Testez chaque prémisse pour voir si la probabilité change avec cette prémisse incluse. Si ce n'est pas le cas, débarrassez-vous-en. Cette méthode est meilleure parce qu'elle teste le modèle au fur et à mesure que vous le construisez. Les auteurs montrent deux exemples adaptés d'anciennes études. Dans les deux cas, cette nouvelle méthode leur a donné des aperçus supplémentaires que les anciennes méthodes ont manqués. Cela demande plus de travail de le faire de cette manière et cela ne donne pas une réponse simple "oui ou non", donc les scientifiques pourraient ne pas l'essayer. Cependant, cela donne des valeurs de probabilité simples qui peuvent être utiles pour prendre des décisions. Le point clé de ce document est que les modèles doivent être testés contre la réalité. Cela ne garantit pas qu'un modèle est parfait. Mais cela signifie que les modèles qui ont fonctionné auparavant fonctionneront probablement à l'avenir. En résumé, cette méthode statistique se concentre sur des prédictions testables plutôt que sur la tentative de prouver des hypothèses. Elle donne aux scientifiques un outil pour répondre aux questions de recherche que les gens veulent vraiment connaître. Homeschool :'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Leave a Reply