An unhealthy obsession with p-values is ruining science


Summary

'في عام 2016، نشر المتخصص في البحث التمهيدي جون إيوانيديس وزملاؤه ورقة عمل تحليلية لـ 385,000 دراسة وملخصات لأكثر من 1.6 مليون ورقة. أظهرت نتائجهم أن استخدام 'p-value' في البحث علمي يزداد. أفادت إحدى وتسعون في المائة من الدراسات التي تم تحليلها بأنها تأتي مع 'p-value' معنوي (أقل من 0.05) في الملخص. ومع ذلك، أفادت فقط عشرة في المائة من الدراسات التي تمت مراجعتها بتأثيرات الحجم (قياس قوة العلاقة بين متغيرين) وفواصل الثقة (قياس اللاكيدة). دون هذا السياق، يمكن أن يكون 'p-value' مضللا. هذا مقلق لأن الأدوية والأجهزة الطبية تبرر استنادا إلى الدلالة الإحصائية لـ 'p-values'. من الصعب بشكل مدهش العثور على تعريف واضح لـ 'p-value'. قدمت الجمعية الأمريكية للإحصاء مؤخرا القاموس التالي: "بشكل غير رسمي، 'p-value' هو احتمالية تحت نموذج إحصائي محدد أن يكون ملخص البيانات الإحصائي (على سبيل المثال، الفرق في المتوسط ​​العينة بين مجموعتين مقارنتين) يكون مساويًا لأكثر من ذلك القيمة المراقبة." يستخدم الباحثون 'p-value' لمساعدة في تحديد ما إذا كانت الفروقات بين مجموعات الاختبار هي كبيرة أم لا. أولا، يحددون فرضية صفرية، تتوقع أن لا يكون هناك فرق بين المجموعات. بعد ذلك، يحسب الباحث 'p-value' باستخدام مجموعة البيانات الخاصة بهم. أخيراً، يتم حساب 'p-value'، الذي يخبر بمدى احتمالية النتائج المراقبة مع افتراض صحة الفرضية الصفرية. قيمة أقل من 0.05 عموما مفسرة لتعني أن الفرضية الصفرية يمكن رفضها. ومع ذلك، هذا لا يخبر الباحث عن أي شيء بشأن ما إذا كان الدواء يعمل أم لا. المشكلة مع 'p-values' هي أنها غالبا ما تستخدم لتحديد ما إذا كانت الدراسة يجب أن تنشر في مجلة أم لا. يمكن أن يتم رفض البحوث الجيدة بسبب 'p-value' عالي. قد يشجع ذلك الباحثين على اللعب بالنظام أو الإبلاغ بشكل انتقائي عن النتائج ذات الـ 'p-value' الصغير. يُطلق على هذه الممارسة غير الأخلاقية اسم التلاعب بالـ 'p-values' أو 'p-hacking'. يعتقد رون واسرستين من الجمعية الأمريكية للإحصاء أن استخدام 'p-values' أصبح منتشرًا لأنه يبسط عملية اتخاذ القرار المعقدة إلى رقم واحد. كما يلاحظ واسرستين أن 'p-values' سهلة الحساب في العصر الحديث بفضل البرمجيات. يتم استخدام 'p-value' للغرض الذي لم يكن مقصودًا أصلاً، وفقاً لتقرير ريجينا نوزو. اخترع الإحصائي البريطاني رونالد فيشر 'p-values' في العشرينيات لتسريع عملية تحديد ما إذا كانت النتيجة تستحق الفحص الأبعد. كان المقصود أن يكون جزءًا من عملية أكبر تُخلط البيانات والمعرفة الأساسية للوصول إلى الاستنتاجات العلمية. لم يكن المقصود أبدًا أن تكون 'p-values' الكلمة الأخيرة بشأن الأهمية. في عام 2016، قامت الجمعية الأمريكية للإحصاء بتحديث إرشاداتها بشأن 'p-values': يمكن أن تشير 'p-values' إلى مدى تعارض البيانات مع نموذج إحصائي محدد. لا تقيس 'p-values' احتمالية أن تكون الفرضية المدروسة صحيحة، أو احتمالية أن تكون البيانات قد تم إنتاجها عن طريق الفرصة العشوائية وحدها. يجب ألا يتم استناد الاستنتاجات العلمية وقرارات الأعمال أو السياسات فقط على ما إذا كانت 'p-value' تعبر عن عتبة محددة. يتطلب الاستدلال السليم التقارير الكاملة والشفافية. 'p-value'، أو الدلالة الإحصائية، لا تقيس حجم التأثير أو أهمية النتيجة. بحد ذاتها، لا توفر 'p-value' قياسًا جيدًا للأدلة بشأن نموذج أو فرضية. بالرغم من انتقاده، لا يعتقد إيوانيديس أنه يجب أن تكون 'p-values' محظورة من العلوم. بدلا من ذلك، يجب أن تصر المجلات على المزيد من المعلومات حول "حجم التأثير، اللاكيدة حول حجم التأثير، وكم من النتائج محتملة أن تكون صحيحة."'

Jump to original

'العديد من العلماء يستخدمون أداة قياس لتحديد ما إذا كانت نتائج تجربتهم تستحق الاهتمام. يُطلق على هذه الأداة اسم "p-value" وتم اختراعها في العشرينيات. ولكن بعض الباحثين ينتقدون استخدام ال p-value بشكل مفرط. يعتقدون أنه قد يكون في الواقع يضر العلم. أظهرت دراسة عام 2016 أن ال p-values تُستخدم أكثر في البحوث. هذا قد يؤدي إلى الحصول على نتائج مربكة، مضللة، أو حتى كاذبة في التجارب العلمية. يمكن أن تتجاوز الأدوية أو التكنولوجيا الطبية الفحص بناءً على "جيدة" p-values - حتى لو لم تعمل في الواقع بشكل جيد. يستخدم الباحثون في الغالب p-values لمعرفة ما إذا كان هناك فرق بين مجموعتين. على سبيل المثال، مجموعة واحدة تناولت دواءً لخفض الكوليسترول والأخرى لم تفعل. يريد الباحث أن يعرف إذا كان الفرق في المجموعات ناتج عن الدواء أو بعض العوامل المجهولة. يستخدمون p-value لتحديد ما إذا كان هناك فرق حقيقي أم لا. لحساب p-value ، يتم إدخال مجموعة من البيانات حول الدراسة (مثل عدد الأشخاص المشاركين والتغيير العادي في مستويات الكولسترول) إلى آلة حاسبة. لا يمكن للـ p-value أن يخبر الباحثين مباشرة إذا كان الدواء يعمل أم لا، ولكنه يمكن أن يساعدهم على فهم ما إذا كانت البيانات من الدراسة غير متوقعة. إذا كانت p-value منخفضة جدًا (أقل من 0.05)، فهذا يعني أن الحصول على مثل هذه النتائج بالصدفة سيكون أمرًا غير محتمل. ولكنه لا يستطيع القول شيئًا عن سبب الفرق بين المجموعات. لدى العلماء العديد من المخاوف حول الـ p-values. بعض العلماء يستخدمون حيل لجعل p-values تبدو أفضل حتى يمكن نشر أبحاثهم. هناك أيضا قلق أن الدراسات الجيدة لا تنشر لأن p-values ليست منخفضة بما يكفي. أصبحت p-values شائعة جدًا في الوقت الحاضر لأنها سهلة الحساب بواسطة الكمبيوتر وتجعل من السهل تحديد ما هو البحث المهم. ولكن هذا خطأ. حتى Ronald Fisher، مخترع p-values، حذر من أنها لا ينبغي استخدامها بهذه الطريقة. بدلاً من ذلك، يجب على الباحثين أن يجمعوا بياناتهم مع ما يعرفونه بالفعل عن العالم. مشاركة الجمعية الأمريكية للإحصاء مؤخرًا بعض النصائح حول كيفية استخدام p-values: p-values تخبرنا فقط عن مدى احتمالية البيانات إذا لم يكن للتجربة أي تأثير. p-values لا تقيس إذا كان تفسير التأثير صحيحًا أم لا. لا يجب أن تعتمد القرارات في العلوم والأعمال والسياسة على p-values. البحث الجيد يتطلب الإبلاغ عن جميع النتائج بصدق. p-values لا تقيس حجم التأثير أو أهمية النتيجة. p-value بحد ذاتها لا يستطيع القول إذا كانت تجربة العالم قد نجحت أم لا. حتى أكبر المنتقدين لـ p-values لا يريدون التخلص من الأداة تمامًا. . بدلاً من ذلك، يحتاج العلماء إلى التحدث أكثر عن حجم التأثيرات، وما هو غير معروف عن التجربة، ومدى احتمالية أن تكون الأبحاث صحيحة.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.

Jump to original

'to be able to teach their children effectively about hypothesis testing and p-value and how to critically assess their usage in scientific literature.

الباحثون يستخدمون أداة قياس تُسمى 'p-value' لإظهار أن بحوثهم ذات أهمية. المشكلة مع 'p-value' هي أن العديد من الأشخاص يعتقدون أن 'p-value' الهام يثبت الفرضية ، ولكن هذا ليس صحيحًا. هناك المزيد من العوامل في الخليط ، ولكن العلماء يعتمدون على 'p-value' بشكل متزايد لإظهار أن بحوثهم صالحة. العالم الذي يعتمد بشكل مفرط على 'p-value' قد ينتهي به الأمر بنتائج دراسة مضللة. هناك خوف من أن الأدوية والعلاجات الطبية قد يتم الترويج لها وبيعها إذا كانت 'p-value' جيدة - حتى لو لم تعمل المنتجات بشكل جيد. يوضح المقال أن 'p-value' يُستخدم عندما يحاول باحث معرفة ما إذا كان هناك فرق بين مجموعتين يجري دراستهما. على سبيل المثال ، لمعرفة ما إذا كان الدواء يخفض الكوليسترول ، يجب أن يعرفوا ما إذا كانت مجموعة من الأشخاص الذين أخذوا الدواء تختلف عن مجموعة أخرى لم يأخذوا الدواء. لا يمكن للإحصاءات أن تخبر الباحث عما إذا كان الفرق بين المجموعات ناتج عن الدواء أو عوامل أخرى غير معروفة. تساعد 'p-value' في تحديد مدى احتمالية الفرق الإحصائي بين المجموعات. إليك كيف يعمل الأمر: يحدد الباحث "الفرضية الأولية" ، التي تتنبأ بأن الدواء لا يؤثر على الكوليسترول على الإطلاق. ثم يتم حساب 'p-value' من البيانات التي جمعتها. يتضمن المعلومات مثل عدد الأشخاص الذين تم اختبارهم والتغييرات المتوسطة في الكوليسترول. 'p-value' الناتج هو رقم بين 0 و 1. 'p-value' منخفض يعني أنه من غير المرجح أن يحدث الفرق الملاحظ عشوائيًا. إذا كان 'p-value' أقل من 0.05 ، يعتبر العديد من العلماء النتيجة "ذات أهمية إحصائية" ، مما يدل على أن الدواء على الأرجح يحدث فرقًا. ومع ذلك ، لا يمكن أن 'p-value' يخبرك ما إذا كان الدواء يعمل أم لا. إنه يتيح لك معرفة احتمالات رؤية هذه البيانات إذا لم يكن للدواء أي تأثير. الناس قلقون من أن المجلات تنشر فقط الدراسات التي تحتوي على 'p-value' أقل من 0.05. هذا يعني أنهم أحيانًا يتجاهلون البحوث الهامة التي ليست لديها 'p-value' منخفض بما فيه الكفاية. الأسوأ من ذلك هو أن الباحثين قد يعبثون ببياناتهم للحصول على 'p-value' منخفضة ، فقط للنشر. يُطلق على هذا اسم "القرصنة الإحصائية". 'p-value' في كل مكان لأنها سهلة الحساب بواسطة الكمبيوتر وتسهل القرار بشأن ما إذا كانت نتائج البحث ذات أهمية أم لا. ولكن رونالد فيشر ، المخترع لـ 'p-value' ، حذر من أنه لا يجب استخدامها بهذه الطريقة. بدلاً من ذلك ، يجب أن يجمع الباحثون بياناتهم مع ما يعرفونه بالفعل عن العالم ويتخذون قرارات بناءً على عملية أكثر سلاسة. المنظمة الأمريكية للاحصاء مؤخرًا نصائح حول كيف يجب استخدام 'p-value': 'p-value' تخبرنا فقط عن مدى احتمالية البيانات إذا لم يكن للتجربة أي تأثير (الفرضية الأولية صحيحة). 'p-value' لا تقيس ما إذا كانت الفرضية صحيحة أم لا. لا يجب أن تعتمد القرارات في العلوم والأعمال والسياسة على 'p-value'. البحث الجيد يتطلب تقديم كل النتائج بصدق. 'p-value' لا تقيس حجم التأثير أو أهمية النتيجة. 'p-value' بحد ذاته ليس دليلًا جيدًا لصالح فرضية أو تفسير. على الرغم من الانتقادات ، هذا المقال لا يقول أنه يجب القضاء على 'p-value'. بدلاً من ذلك ، يحتاج العلماء إلى التحدث أكثر عن حجم التأثيرات ، ما هو غير معروف عن التجربة ، ومدى احتمالية صحة البحث. الدراسة المنزلية: العنوان: فهم دور 'p-value' في الدراسات العلمية وصف الدورة: هذا المنهج التعليمي المنزلي مصمم لمساعدة الأهل على تعليم أطفالهم عن فهم وتفسير 'p-value' وأهميتهم في البحث العلمي والمشاكل التي تقدمها الاعتماد المفرط على 'p-value' في العلوم. الخطة الدراسية: 1. التعريفات والأساسيات: - ما هو 'p-value'? - مقدمة لاختبار الفرضية - فهم الأهمية الإحصائية 2. دور 'p-value' في الدراسات العلمية: - دراسات حالة عن استخدام 'p-value' في البحوث الطبية الحيوية - فهم الأهمية الإحصائية في الدراسات العلمية - تفسير 'p-value' في الدراسات المنشورة 3. القيود وسوء استخدام 'p-value': - مشاكل الاعتماد المفرط على 'p-value' - كيف يمكن أن تكون 'p-value' مضللة - 'p-value': قياس الأهمية الإحصائية ، ليس الأهمية العلمية 4. التقدم بعيدًا عن 'p-value': - مقدمة لأحجام التأثير والفواصل الثقة - أهمية إعطاء السياق لنتائج 'p-value' 5. 'p-value' في التطبيق العملي: - العمل من خلال أمثلة اختبار الفرضية في الطب الحيوي - تحليل وتفسير 'p-value' من الدراسات الحيوية الطبية وسائل تدريس الدورة: - التدريس بأسلوب المحاضرات - الفيديوهات عبر الإنترنت - الاختبارات التفاعلية - جلسات حل المشكلات - المناقشات الجماعية - المهام العملية العملية في نهاية هذه الدورة ، سيفهم المتعلمون دور 'p-value' في البحث العلمي ، ويعترفون بقيودها ، ويكتسبون القدرة على تقييم استخدامها بشكل نقدي في الأدب العلمي. يتم توفير الآباء بموارد وفيرة تجعل تدريس هذا المفهوم في المنزل فعالًا وجذابًا. العنوان: فهم اختبار الفرضية و 'p-value': دليل التعليم المنزلي للوالدين الهدف: تزويد الآباء بمعرفة كافية''وأدوات لتعليم أطفالهم عن اختبار الفرضية و p-value بطريقة مبسطة. النتائج المتوقعة من الدورة: بنهاية الدورة، يجب أن يكون المتعلم قادرا على: - فهم مفهوم الفرضية البديلة في اختبار الفرضية. - التعرف على عملية توليد p-value. - حساب p-value بشكل مستقل باستخدام البيانات المعطاة. - فهم تفسير p-value فيما يتعلق بالفرضية البديلة. تقسيم الدورة: الدرس 1: مقدمة في اختبار الفرضية - تعريف مفهوم اختبار الفرضية. - شرح أهمية اختبار الفرضية في البحث العلمي. الدرس 2: فهم الفرضية البديلة - تعريف الفرضية البديلة. - مناقشة أمثلة على الفرضية البديلة في سياقات مختلفة. الدرس 3: مقدمة في p-value - تعريف p-value ودوره في دعم أو رفض الفرضية البديلة. - مناقشة أمثلة على حسابات p-value في مواقف مختلفة. الدرس 4: كيفية حساب p-value - مناقشة البيانات اللازمة لحساب p-value. - تعلم طريقة إدخال الأرقام في الآلة الحاسبة للحصول على p-value. - نشاط عملي: حساب p-value باستخدام البيانات المعطاة. الدرس 5: تفسير p-value - مناقشة ما تشير إليه p-value المنخفضة والعالية بالنسبة للفرضية البديلة. - مناقشة لماذا يعتبر p-value أقل من 0.05 ذا أهمية إحصائية في المجتمع الطبي. - مناقشة القيود المفروضة على p-value في تحديد صحة أو كذب الفرضية الأصلية. الدرس 6: p-value في نشر الأبحاث - مناقشة دور p-value في تحديد القدرة على نشر البحث. - مناقشة الآثار السلبية المحتملة للاعتماد المفرط على p-value على صحة البحث مثل "p-value hacking". الختام: الاستخدام المسؤول عن p-value - مناقشة الإرشادات التي أصدرتها الجمعية الأمريكية للإحصاء بشأن استخدام p-value بشكل أكثر دقة وحذر. المواد المطلوبة: الوصول إلى الإنترنت، الآلات الحاسبة، بيانات عينة للتمرين. القراءة الإضافية: 1. "لمحة عامة عن الفرضية البديلة و p-value في اختبار الفرضية" بواسطة رونالد فيشر. 2. "scientific method والأخطاء الإحصائية" بواسطة ريجينا نوزو. نشرت بواسطة Nature. منهاج التعليم المنزلي: الإحصاء العملي لأولياء التلاميذ الأسبوع 1: - تعريف الكوليسترول وأهميته في الجسم - مستويات الكوليسترول وتأثيرها على صحة الإنسان التمارين: - البحث عن الأطعمة المختلفة التي يمكن أن تزيد وتقلل من الكوليسترول. الأسبوع 2 و 3: - مقدمة في التجارب: المجموعة A (مع الدواء) مقابل المجموعة B (بدون دواء) - فهم ما هي المتغيرات والعوامل الأخرى في التجارب: الدواء والكوليسترول التمارين: - معرفة أمثلة من الحياة الواقعية للتجارب التي تشتمل على مجموعتين تختلفان في متغير واحد أو أكثر. الأسبوع 4 و 5: - فهم p-value: المقدمة، الأهمية والحساب - تقديم الفرضية البديلة: الافتراض للفرضية ودورها في حساب p-value - فهم مصطلح "ذات أهمية إحصائية" وأهميته في المجتمع الطبي تمرين: - ممارسة حسابات p-value مع الأرقام والبيانات المعطاة، فهم ما هو ذات أهمية إحصائية الأسبوع 6-8: - فهم القيود المفروضة على p-value: ما يمكن وما لا يمكن أن تخبرنا - تحليل مفهوم p-value بشكل نقدي: مناقشة ورقة Ioannidis حول أزمة p-value التمارين: - قراءة وفهم ورقة Ioannidis. الرد بأفكار فردية وتحليل. الأسبوع 9-10: - مفهوم "P-dolatory أو "عبادة الأهمية الكاذبة" - فهم كيف يتم استخدام أو سوء استخدام p-value في نشر الأبحاث - المناقشة حول "p-value hacking" المناقشة: - مناقشة إعلان Ron Wasserstein، المدير التنفيذي للجمعية الأمريكية للإحصاء، عن سوء استخدام p-value. الأسبوع 11 و 12: - التأمل في دور التكنولوجيا في حسابات p-value - فهم الاعتماد على p-value في تحديد قيمة البحث تمرين: - مناقشة حالات من الحياة الواقعية حيث تم الاعتماد بشكل كبير على p-value في البحث. النقاش حول ما إذا كان هذا الاعتماد مبررا أم لا. طوال هذه الدورة، سنستخدم أمثلة من الحياة الواقعية، وسنشارك في مناقشات تتضمن التفكير النقدي وسنقدم تمارين عملية لفهم الأساليب الإحصائية وأهميتها في عالم العلوم والطب.'

--------- Original ---------
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.
Over the past couple of years, Stanford meta-researcher John Ioannidis and several colleagues have been working on a paper that should make any nerd think twice about p-values, those tests of statistical significance that are now commonly perceived as a signal of a study's worth. Their paper, published today in JAMA, examines p-values across 25 years of biomedical research. That involved doing some seriously impressive data crunching: The researchers analyzed more than 1.6 million study abstracts and more than 385,000 full-text papers, all of which included p-values.