An unhealthy obsession with p-values is ruining science


Summary

'En 2016, le méta-chercheur John Ioannidis et ses collègues ont publié un article analysant 385 000 études et les résumés de plus de 1,6 million d'articles. Leurs résultats montrent que l'utilisation de la p-value augmente au sein de la recherche. Quatre-vingt-seize pour cent des études analysées ont rapporté une p-value significative (inférieure à 0,05) dans le résumé. Cependant, seulement dix pour cent des études examinées ont rapporté les tailles d'effet (une mesure de la force d'une relation entre deux variables) et les intervalles de confiance (une mesure de l'incertitude). Sans ce contexte, les p values peuvent être trompeuses. C'est préoccupant parce que les médicaments et les dispositifs médicaux sont justifiés sur la base de la signification statistique de leurs p values. Il est étonnamment difficile de trouver une définition claire d'une p value. L'American Statistical Association a récemment proposé la suivante : "Informellement, une p value est la probabilité, sous un modèle statistique spécifié, qu'un résumé statistique des données (par exemple, la différence moyenne d'échantillonnage entre deux groupes comparés) serait égal à ou plus extrême que sa valeur observée." Les chercheurs utilisent les p values pour aider à déterminer si les différences entre les groupes de test sont significatives ou non. D'abord, ils définissent une hypothèse nulle, qui prédit qu'il n'y aura pas de différence entre les groupes. Ensuite, le chercheur calcule une p-value en utilisant leurs données. Enfin, une p-value est calculée, qui indique la probabilité des résultats observés en supposant que l'hypothèse nulle est vraie. Une valeur inférieure à 0,05 est généralement interprétée comme signifiant que l'hypothèse nulle peut être rejetée. Cependant, cela ne dit rien au chercheur sur l'efficacité ou non du médicament. Le problème avec les p values est qu'elles sont souvent utilisées pour décider si une étude doit être publiée dans une revue. Une bonne recherche pourrait être rejetée en raison d'une p-value élevée. Cela pourrait encourager les chercheurs à manipuler le système ou à rapporter sélectivement des résultats avec une petite p value. Cette pratique non éthique est appelée p-hacking. Ron Wasserstein de l'American Statistical Association théorise que l'utilisation des p values est devenue répandue parce qu'elles simplifient un processus complexe de prise de décision en un seul chiffre. Wasserstein note également que les p values sont faciles à calculer à l'ère moderne grâce aux logiciels. La p-value est utilisée à des fins pour lesquelles elle n'a jamais été conçue, selon le reportage de Regina Nuzzo. Le statisticien britannique Ronald Fisher a inventé les p values dans les années 1920 pour accélérer le processus de détermination si un résultat méritait un examen plus approfondi. Elle était censée faire partie d'un processus plus large qui "mélangeait les données et les connaissances de fond pour aboutir à des conclusions scientifiques". Les p values n'étaient jamais censées être le dernier mot sur la signification. En 2016, l'American Statistical Association a mis à jour ses directives sur les p values : Les p values peuvent indiquer à quel point les données sont incompatibles avec un modèle statistique spécifié. Les p values ne mesurent pas la probabilité que l'hypothèse étudiée soit vraie, ou la probabilité que les données aient été produites par le hasard seul. Les conclusions scientifiques et les décisions commerciales ou politiques ne devraient pas être basées uniquement sur le fait qu'une p value passe un certain seuil. Une inférence appropriée nécessite un rapport complet et une transparence. Une p value, ou signification statistique, ne mesure pas la taille d'un effet ou l'importance d'un résultat. En soi, une p value ne fournit pas une bonne mesure des preuves concernant un modèle ou une hypothèse. Malgré sa critique, Ioannidis ne croit pas que les p values devraient être bannies de la science. Au contraire, les revues devraient insister pour avoir plus d'informations sur "la taille de l'effet, l'incertitude autour de la taille de l'effet, et à quel point [les résultats sont] susceptibles d'être vrais".'

Jump to original

'Beaucoup de scientifiques utilisent un outil de mesure pour décider si les résultats de leur expérience sont remarquables. Cet outil s'appelle le p-value et a été inventé dans les années 1920. Cependant, certains chercheurs dénoncent une surutilisation de la p-value. Ils pensent que cela pourrait nuire à la science. Une étude de 2016 montre que les p-values sont utilisées de plus en plus souvent dans les recherches. Cela pourrait conduire à des résultats potentiellement confus, trompeurs, voire faux dans les expérimentations scientifiques. Les médicaments ou les technologies médicales pourraient être approuvés sur la base de leurs "bons" p-values, même s'ils ne fonctionnent pas très bien en réalité. Les chercheurs utilisent souvent les p-values pour voir s'il y a une différence entre deux groupes. Par exemple, un groupe qui a pris un médicament pour abaisser le cholestérol et un autre qui ne l'a pas pris. Le chercheur veut savoir si une différence entre les groupes a été causée par le médicament ou un facteur inconnu. Ils utilisent une p-value pour décider s'il y a une différence réelle ou non. Pour calculer une p-value, un ensemble de données sur l'étude (comme le nombre de personnes impliquées et le changement moyen de leur taux de cholestérol) sont introduites dans une calculatrice. La p-value ne peut pas directement dire aux chercheurs si le médicament fonctionne ou non, mais elle peut les aider à comprendre si les données de l'étude sont inattendues. Si la p-value est très faible (moins de 0,05), cela signifie que l'obtention de tels résultats par accident serait peu probable. Mais elle ne peut rien dire sur la raison de la différence entre les groupes. Les scientifiques ont plusieurs préoccupations à propos des p-values. Certains scientifiques utilisent des astuces pour rendre leurs p-values plus attrayantes afin que leurs études puissent être publiées. Il y a aussi une préoccupation que de bonnes études ne soient pas publiées parce que leurs p-values ne sont pas assez faibles. Les p-values sont vraiment courantes de nos jours parce qu'elles sont faciles à calculer avec un ordinateur et elles simplifient la décision de ce qui est important dans la recherche. Mais c'est une erreur. Même Ronald Fisher, l'inventeur des p-values, a averti qu'elles ne devraient pas être utilisées de cette manière. Au lieu de cela, les chercheurs devraient combiner leurs données avec ce qu'ils savent déjà du monde. L'American Statistical Association a récemment partagé des conseils sur l'utilisation des p-values : les p-values nous indiquent seulement à quel point les données sont probables si l'expérience n'a aucun effet. Les p-values ne mesurent pas si une explication d'un effet est vraie ou non. Les décisions en science, en affaires et en politique ne devraient pas être basées sur les p-values. Une bonne recherche nécessite de rendre compte de tous les résultats honnêtement. Les p-values ne mesurent pas la taille d'un effet ou l'importance d'un résultat. Une p-value seule ne peut pas dire si l'expérience d'un scientifique a fonctionné ou non. Même les plus grands critiques des p-values ne veulent pas se débarrasser complètement de l'outil. Au lieu de cela, les scientifiques ont besoin de parler davantage de la taille des effets, de ce qui est inconnu dans une expérience et de la probabilité que la recherche soit vraie.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.

Jump to original

'on p-values and hypothesis testing to effectively teach their children. Includes comprehensive course materials and resources.

Les chercheurs utilisent un outil de mesure appelé p-value pour montrer que leur recherche est significative. Le problème avec les p-values est que beaucoup de gens pensent qu'une p-value significative prouve une hypothèse, mais ce n'est pas vrai. Il y a plus de facteurs dans le mix, mais les scientifiques comptent de plus en plus sur les p-values pour montrer que leur recherche est valide. Un scientifique qui se fie trop aux p-values pourrait se retrouver avec des résultats d'études trompeurs. Il y a une crainte que des médicaments et des traitements médicaux puissent être promus et vendus si leurs p-values sont "bonnes" - même si les produits ne fonctionnent pas bien. L'article explique que les p-values sont utilisées lorsqu'un chercheur essaie de déterminer s'il y a une différence entre deux groupes étudiés. Par exemple, pour savoir si un médicament réduit le cholestérol, ils doivent savoir si un groupe de personnes qui a pris le médicament est différent d'un autre groupe qui n'a pas pris le médicament. Les statistiques ne peuvent pas dire à un chercheur si une différence entre les groupes a été causée par le médicament ou par d'autres facteurs inconnus. Les p-values aident à déterminer si la différence statistique entre les groupes était probable ou non. Voici comment cela fonctionne : Le chercheur définit une "hypothèse nulle", qui prédit que le médicament n'a aucun effet sur le cholestérol. Ensuite, la p-value est calculée à partir des données que vous avez collectées. Elle comprend des informations telles que le nombre de personnes testées et les changements moyens de cholestérol. La p-value résultante est un nombre entre 0 et 1. Une faible p-value signifie qu'il est peu probable que la différence observée se soit produite par hasard. Si la p-value est inférieure à 0,05, de nombreux scientifiques considèrent le résultat comme "statistiquement significatif", indiquant que le médicament fait probablement une différence. Cependant, la p-value ne peut pas vous dire si le médicament fonctionne ou non. Elle vous permet simplement de connaître les chances de voir ces données si le médicament n'avait aucun effet. Les gens s'inquiètent que les journaux ne publient que des études avec une p-value inférieure à 0,05. Cela signifie qu'ils ignorent parfois des recherches importantes qui n'ont pas une p-value assez faible. Pire encore, les chercheurs pourraient truquer leurs données pour obtenir de faibles p-values, juste pour être publiés. C'est ce qu'on appelle le "p-hacking". Les p-values sont partout parce qu'elles sont faciles à calculer avec un ordinateur et qu'elles permettent de décider facilement si une découverte de recherche est significative ou non. Mais Ronald Fisher, l'inventeur des p-values, a prévenu qu'elles ne devraient pas être utilisées de cette façon. Au lieu de cela, les chercheurs devraient combiner leurs données avec ce qu'ils savent déjà sur le monde et prendre des décisions basées sur un processus plus fluide. L'American Statistical Association a récemment partagé des conseils sur l'utilisation des p-values : Les p-values nous disent seulement à quel point les données sont probables si l'expérience n'a aucun effet (l'hypothèse nulle est vraie). Les p-values ne mesurent pas si une hypothèse est vraie ou non. Les décisions en science, en affaires et en politique ne devraient pas être basées sur les p-values. Une bonne recherche nécessite de rapporter tous les résultats honnêtement. Les p-values ne mesurent pas la taille d'un effet ou l'importance d'un résultat. Une p-value en soi n'est pas une bonne preuve en faveur d'une hypothèse ou d'une explication. Malgré les critiques, cet article ne dit pas que les p-values devraient être éliminées. Au contraire, les scientifiques doivent parler davantage de la taille des effets, de ce qui est inconnu sur une expérience et de la probabilité que la recherche soit vraie. Enseignement à domicile : Titre : Comprendre le rôle des p-values dans les études scientifiques Description du cours : Ce programme d'enseignement à domicile est conçu pour aider les parents à éduquer leurs enfants sur la compréhension et l'interprétation des p-values, leur importance dans la recherche scientifique et les problèmes posés par la dépendance excessive aux p-values dans la science. Programme du cours : 1. Définitions et fondamentaux : - Qu'est-ce qu'une p-value ? - Introduction à l'hypothèse de test - Comprendre la signification statistique 2. Le rôle des p-values dans les études scientifiques : - Études de cas sur l'utilisation des p-values dans la recherche biomédicale - Comprendre la signification statistique dans les études scientifiques - Interpréter les p-values dans les études publiées 3. Limitations et abus des p-values : - Problèmes liés à la dépendance excessive aux p-values - Comment les p-values peuvent être trompeuses - P-value : Une mesure de la signification statistique, pas de l'importance scientifique 4. Dépasser les p-values : - Introduction à la taille des effets et aux intervalles de confiance - Importance de donner un contexte aux résultats des p-values 5. Application pratique des p-values : - Travailler à travers des exemples de tests d'hypothèse en biomédecine - Analyser et interpréter les p-values à partir d'études biomédicales Méthodes d'enseignement du cours : - Enseignement en mode conférence - Vidéos en ligne - Quizzes interactifs - Sessions de résolution de problèmes - Discussions de groupe - Tâches pratiques à la main A la fin de ce cours, les apprenants comprendront le rôle des p-values dans la recherche scientifique, reconnaîtront leurs limites et acquerront la capacité d'évaluer de manière critique leur utilisation dans la littérature scientifique. Les parents sont dotés de nombreuses ressources qui rendent l'enseignement de ce concept à domicile efficace et attrayant. Titre : Comprendre le test d'hypothèse et la p-value : Un guide pour l'enseignement à domicile pour les parents Objectif : Équiper les parents avec des connaissances suffisantes sur les p-values et les tests d'hypothèse pour enseigner efficacement leurs enfants. Comprend des matériaux de cours complets et des ressources.''et des outils pour enseigner à leurs enfants sur le test d'hypothèse et le p-value de manière simplifiée. Résultats du cours : À la fin du cours, l'apprenant devrait être en mesure de ; - Comprendre le concept de l'hypothèse nulle dans le test d'hypothèse. - Se familiariser avec le processus de génération d'un p-value. - Calculer le p-value de manière indépendante en utilisant les données fournies. - Comprendre l'interprétation des p-values par rapport à l'hypothèse nulle. Détail du cours : Leçon 1 : Introduction au test d'hypothèse - Définir le concept de test d'hypothèse. - Expliquer l'importance du test d'hypothèse dans la recherche scientifique. Leçon 2 : Comprendre l'hypothèse nulle - Définir l'hypothèse nulle. - Discuter des exemples de l'hypothèse nulle dans différents scénarios. Leçon 3 : Introduction au p-value - Définir le p-value et son rôle dans le soutien ou le rejet de l'hypothèse nulle. - Discuter des exemples de calculs de p-value dans différentes situations. Leçon 4 : Comment calculer les p-values - Discuter des données nécessaires pour calculer un p-value. - Enseigner la méthode pour insérer des chiffres dans une calculatrice pour obtenir un p-value. - Activité pratique : Calculer les p-values en utilisant les données fournies. Leçon 5 : Interprétation du p-value - Discuter de ce que les p-values faibles et élevés indiquent par rapport à l'hypothèse nulle. - Discuter pourquoi un p-value de moins de 0,05 est considéré comme statistiquement significatif dans la communauté médicale. - Discuter des limites des p-values pour déterminer la vérité ou la fausseté de l'hypothèse originale. Leçon 6 : Les p-values dans la publication de recherche - Discuter du rôle des p-values pour déterminer la publilité de la recherche. - Discuter des impacts négatifs potentiels d'une dépendance excessive aux p-values sur la validité de la recherche comme le "p-value hacking". Conclusion : Utilisation responsable des p-values - Discuter des orientations émises par l'American Statistical Association concernant une utilisation plus précise et conservatrice du p-value. Matériel nécessaire : Accès à Internet, calculatrices, données d'exemple pour exercice. Lecture supplémentaire : 1. "Aperçu de l'hypothèse nulle et du p-value dans le test d'hypothèse" par Ronald Fisher. 2. "Scientific Method et erreurs statistiques" par Regina Nuzzo. Publié par Nature. Programme d'éducation à domicile : Statistiques pratiques pour les parents enseignants Semaine 1 : - Définition du cholestérol et de son importance dans le corps - Niveaux de cholestérol et son impact sur la santé humaine Exercices : - Recherche sur différents aliments qui peuvent augmenter et diminuer le cholestérol. Semaine 2 & 3 : - Introduction aux expériences : Groupe A (avec médicament) vs Groupe B (sans médicament) - Comprendre ce que sont les variables et autres facteurs dans les expériences : Médicament et Cholestérol Exercices : - Trouver des exemples réels d'expériences avec deux groupes qui diffèrent sur une ou plusieurs variables. Semaine 4 & 5 : - Comprendre le p-value : Introduction, Importance et son calcul - Introduire l'hypothèse nulle : l'hypothèse pour l'hypothèse et son rôle dans le calcul du p-value - Comprendre le terme "Statistiquement significatif" et son importance dans la communauté médicale Exercice : - Pratiquer les calculs de p-value avec les numéros et données donnés, comprendre ce qui est statistiquement significatif Semaines 6-8 : - Comprendre les limites du p-value : ce qu'il peut nous dire et ce qu'il ne peut pas - Analyser le concept de p-value de manière critique : discuter du papier de Ioannidis sur la crise du p-value Exercices : - Lire et comprendre le papier de Ioannidis. Répondre avec des pensées et des analyses individuelles. Semaines 9-10 : - Concept de "P-dolatory ou le "culte de la fausse signification" - Comprendre comment les p-values sont utilisés ou mal utilisés dans les publications de recherche - Discuter de "p-value hacking" Discussion : - Discuter de la déclaration de l'abus de p-value par Ron Wasserstein, le directeur exécutif de l'American Statistical Association. Semaines 11 & 12 : - Réflexion sur le rôle de la technologie dans les calculs de p-value - Comprendre la dépendance au p-value pour déterminer la valeur de la recherche Exercice : - Discuter des cas réels où le p-value a été fortement utilisé dans la recherche. Débattre de savoir si cette dépendance est justifiée. Tout au long de ce cours, nous utiliserons des exemples concrets, nous engagerons dans des discussions de pensée critique et fournirons des exercices pratiques pour comprendre les méthodes statistiques et leur importance dans le monde de la science et de la médecine.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.