Surrogate Science: The Idol of a Universal Method for Scientific Inference

By Gerd Gigerenzer


Summary

'هذا التعليق التحريري من قبل جيرد جيجرينزر وجوليان ماريفسكي يناقش حلم وجود طريقة عالمية للمنطق في العلم. حلم عالم الرياضيات العظيم غوتفريد فيلهيلم ليبنيز بحساب عالمي يمكن فيه تمثيل جميع الأفكار بواسطة رموز ومناقشتها دون تشاجر. توقع أن يستغرق المشروع خمس سنوات، ولكن للأسف، لم يتم إكماله أبدًا. بدلاً من ذلك، تم تبني الـp-value كطريقة مفضلة للمنطق في البحث العلمي. وقد جادل المنتقدون أن الطرق البايسية أفضل ويجب أن تكون الوسيلة الوحيدة للتحليل في المستقبل. يزعم مؤلفو هذا الورق أن كلا الفريقين يخطئان في البحث عن "الوثن الكاذب" لطريقة المنطق العالمية. الـp-values ألحقت ضررًا كبيرًا بالاستبدال الفعلي بالتخمينات الإحصائية التي تدعي تقدير الإعادة. أظهرت جهود كبيرة لإجراء إعادة للدراسات الأساسية أن عدد قليل جداً منها يتكرر بالرغم من الـp-values الصغيرة. عجز علماء Amgen عن إعادة 47 من 53 تجربة أتت مع أهداف للأدوية المحتملة. كانت تعتبر هذه الدراسات الرئيسية وكانت Amgen لديها مصلحة مالية في جعلها تعمل. أظهر تحليل آخر لإعادة في الإدارة والمالية ومجلات الإعلان أن 40-60 ٪ من إعادة ناقضت نتائج الدراسات الأصلية. حذر الإحصائيون من الـp-values طالما كانت موجودة، ولكنها لا تزال شائعة. حسب أحد الباحثين متوسط عدد الـp-values المذكورة في الأوراق المنشورة في مجلة الأعمال كان 99. وجد المؤلفون حتى p-value والفاصلة الثقة محسوبة لعدد الموضوعات في الدراسة، كما لو كان يمكن أن يكون هناك أي غموض حول ذلك! هذا مجرد تطبيق غير مدروس للإحصاءات محسنة بواسطة برنامج إحصائي سهل الاستخدام. البايسيون من ناحية أخرى كانوا حذرين في البداية لتطبيق طرقهم فقط على "العالم الصغير" حيث الغموض ضئيل. في وقت لاحق، نمت ثقتهم في الطريقة واقترحوا "البايسية العالمية" التي يمكن أن تنطبق على الأحداث الإحصائية المتكررة أو الأحداث الفردية. يقترح مؤلفو هذا الورق أن يمكن أن يكون نظام بيز مفيدًا لتحديد المخاطر، ولكنه غير مؤكد في عالم غير مؤكد. يطلق المؤلفون على استخدام قاعدة بيز التلقائية في العلم "الوثن الجميل"، ولكن يحذرون أنه يجب أن يكون فقط أداة واحدة في صندوق أدوات أكبر. مثال على التطبيق الناجح لبيز في الطب هو حساب احتمالية أن يكون شخص ما مصابًا بمرض عندما يكون الاختبار إيجابيًا والانتشار الأساسي للمرض معروف. بدون سابقة موضوعية، مثل انتشار المرض المقدر بشكل موثوق، يصبح بيز أكثر ذاتية وأقل موثوقية. لدى المؤلفين ثلاث نقاط رئيسية يريدون تقديمها في هذا التعليق: لا توجد طريقة عالمية للمنطق العلمي، بل يوجد صندوق أدوات كامل يتضمن الإحصاءات الوصفية، تحليل البيانات الاستكشافية، وتقنيات النمذجة الرسمية. الشيء الوحيد الذي لا ينتمي إلى صندوق الأدوات هو الأصنام الكاذبة. إذا حدثت "الثورة البايسية" المأمولة، يمكن أن يتم استبدال وثن كاذب بآخر. يمكن أن تحل بسيطة البيز مكان الـp-values كمستوى أهمية محسوب تلقائيًا للعلم. الأساليب الإحصائية المستخدمة في العلم تغير العلم نفسه، والعكس صحيح. على سبيل المثال، كلما كانت العلوم الاجتماعية تؤكد على الإحصاءات الاستدلالية، ظلت أهمية التكرار والخطأ في القياس تتقلص. لم يستخدم الاختراقات العلمية السابقة، مثل إسحاق نيوتن وتشارلز داروين، الإحصاءات الاستدلالية أبدًا. أجرى نيوتن تجارب دقيقة لإثبات التأثيرات التي توقعها نظرياته. لم يتم الإبلاغ عن أي إحصائيات، على الرغم من أنه كان معتادًا على الأساليب الإحصائية وحتى استخدمها للسيطرة على الجودة في وظيفته كمدير للعملة الملكية اللندنية. في مجال علم النفس، الذي يسيطر عليه الآن الإحصاءات الاستدلالية، لم يكن الاختراقات السابقة من قبل بياجيه وبافلوف وسكينر وغيرهم يستخدمونها أيضًا. لا يلعب الاستدلال الإحصائي ولا البايسي دورًا كبيرًا في العلم حتى الأربعينات. لم يكد يمر وقت طويل بعد ذلك حتى أصبح الـ"Null Ritual" طريقة المنطق السائدة، خاصة في العلوم الاجتماعية. يتألف من ثلاث خطوات: إعداد فرضية خالية (لا يوجد فرق في المتوسط أو صفر في الارتباط) دون تحديد فرضيتك الخاصة. استخدام 5% كقاعدة لرفض الفرضية الخالية. دائماً تنفيذ هذا الإجراء. أصبح هذا الطقس مدرجًا في أدلة النشر العلمي، التي حددت نمط وجوهر البحوث المنشورة. هذا الطقس هو مزيج من عمل رونالد فيشر ونيمان/ بيرسون، على الرغم من أنه ينتهك توصيات كلاهما. اقترح فيشر مرة واحدة الـ 5% كمعيار، ولكنه نأى عن هذه الممارسة فيما بعد. نصح أن ينبغي للباحثين: إعداد فرضية خالية التي ليست بالضرورة فرضية غائبة. الإبلاغ عن مستوى الأهمية الدقيق الموجود. استخدام هذه الإجراء فقط إذا كان معروفًا القليل عن المشكلة التي يتم دراستها. يختتم المؤلفون التحرير الخاص بهم بالاعتراف المشؤوم بفائدة واحدة من الـ"Null Ritual": مصدر دائم للتوظيف''للعلماء العاديين الذين سوف يستمرون في نشر الأبحاث غير المبتكرة بدون الكثير من الابتكار أو المخاطرة.'

Jump to original

'حلم كبير لدى العلماء هو أن يتوفر لديهم في يوم من الأيام طريقة لتحليل أي بحث وتحديد بسهولة ما إذا كان معرفة موثوقة أم لا. ومع ذلك، لم ينجح أحد في تحقيق هذا الهدف حتى الآن، لكن العديد من العلماء قد تصرفوا كما لو كان لديهم طريقة عالمية. والطريقة المفضلة لديهم تسمى p-value. يُعتقد أن قيمة p-value صغيرة تعني أن احتمالية تكرار النتيجة التي يجدونها في تجربة تزيد عن 95% إذا كانوا سيكررون التجربة. ومع ذلك، عندما يعيد العلماء تنفيذ تجارب علماء آخرين، فإنهم يفشلون في الحصول على نفس النتيجة في أكثر من نصف الوقت. هذا يعني أن الكثير من المعرفة العلمية ليست دقيقة كما كنا نعتقد في السابق. جزء كبير من المشكلة هو أن لدى العلماء برنامجًا يسهل العثور على p-value لأي بيانات يدخلونها في برنامجهم. هؤلاء العلماء ليسوا على علم أن هناك طرقًا أخرى قد تكون أفضل لنوع البحث الذي يقومون بتحليله. بدلاً من ذلك، هم يتبعون ما يطلق عليه مؤلفو هذا التحرير "null ritual". الـ"null ritual" هو عندما يتم مقارنة البيانات مع فرضية null معينة (توقع عدم وجود تأثير أو ارتباط). إذا حصلت البيانات على قيمة p-value صغيرة، يتم رفض الفرضية null لصالح فرضية الباحث (توقع فكرة الباحث التي يتم اختبارها). والجزء الأخير من الطقس هو أداء هذا الإجراء دائمًا. قدم الباحثون طريقة أخرى تسمى بيانات بيز، التي يعتقدون أنها الطريقة الوحيدة لتحليل الأبحاث. هناك بعض التطبيقات المؤثرة حقاً لبيانات بيز، مثل معرفة ما إذا كان الشخص مريضًا حقًا عندما يكون اختباره إيجابياً لمرض ما. إذا كان مرضًا نادرًا، هناك فرصة جيدة أن يكون المريض بخير وأن الاختبار كان خاطئًا (إيجابيًا كاذبًا في هذه الحالة). ينصح مؤلفو هذا الورقة بأن يصبح العلماء على دراية بمجموعة أكبر من الأساليب الإحصائية ويستخدمون كل أداة من هذه الأدوات عندما يكون الأمر الصحيح للعمل المطلوب. حتى ذلك الوقت، سيستمر العلماء في إنتاج أطنان من الأبحاث متوسطة الجودة.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."

Jump to original

'في القرن السادس عشر، اقترح رياضياتي مشهور يدعى غوتفريد ويلهلم ليبنيتز البحث عن طريقة عالمية لتحليل المعلومات. كان يعتقد أنها ستستغرق خمس سنوات فقط، ولكن هذا المشروع لم يكتمل حتى الآن. لكن العديد من العلماء يتصرفون وكأن لديهم طريقة عالمية ويطبقونها على كل مشكلة بحثية يمكنهم. الطريقة الأكثر شيوعًا للتحليل الإحصائي في العلوم، وخاصة العلوم الاجتماعية مثل علم النفس، والإدارة والمالية، تسمى p-value. يعتقد معظم العلماء أن قيمة p-value صغيرة تعني احتمالية عالية (أكثر من 95%) أن يتكرر البحث إذا تم تكرار التجربة. ومع ذلك، أظهرت العديد من مشاريع التكرار الكبيرة النطاق أن أكثر من نصف العلوم المنشورة لا يتكرر. فشلت شركة التكنولوجيا الحيوية الكبيرة التي تدعى Amgen في تكرار 47 من 53 دراسة أكاديمية رئيسية قد اقترحت علاجات جديدة محتملة للسرطان. تم إضاعة الكثير من الوقت والمال في متابعة البحوث على أساس العلوم غير الموثوقة. يكتب مؤلفو هذا الورقة أن العلماء يتبعون بشكل أعمى "طقوس الصفر" عند تفسير نتائج تجاربهم. أولاً، يقارنون نتائجهم بفرضية الصفر. الصفر هو توقع لعدم وجود ارتباط أو تأثير. ثانياً، يحددون حدًا تعسفيًا بنسبة 5% لتحديد ما إذا كانت نتائجهم معنوية. إذا تم تجاوز هذا الحد، يرفضون فرضية الصفر لصالح فرضيتهم الخاصة. وثالثاً، يكررون هذه العملية في كل تجربة. تم تعليم هذه الطقوس في الكتب المدرسية للإحصاء لعلماء النفس والعلوم الاجتماعية والمطلوبة من قبل العديد من الناشرين. حتى مخترع اختبار الفرضية، رونالد فيشر، ينصح ضد هذا الإجراء. يقول أن حد الأهمية يجب أن يكون مختلفًا لكل مشروع بحث. فرضية الصفر ليست بالضرورة تعني عدم وجود ارتباط. ولا يجب القيام بهذا الإجراء طوال الوقت. لم يستخدم العديد من العلماء العظماء في الماضي، مثل اسحق نيوتن وتشارلز داروين، القيم p-value أو أي نوع من الإحصاءات الاستدلالية. لم تقدم معظم الابتكارات في العلم حتى الأربعينيات، بما في ذلك العلوم الاجتماعية، أي قيم p-value أو فترات الثقة أو أي من الإحصاءات التي نراها في كل مكان اليوم. بدلاً من ذلك، أجرى علماء عظماء مثل نيوتن، بافلوف، وسكينر تجارب لاثبات التأثيرات التي تنبأت بها نظرياتهم. ينصح مؤلفو هذا الورقة ضد البحث عن طريقة تحليل عالمية. يطلقون عليها اسم "الصنم الباطل". يشمل هذا طريقة شعبية تسمى نظرية بايز. يمكن أن تكون مفيدة جدًا في بعض الحالات حيث يكون هناك قليل من الشك، ولكنها لا ينبغي أن تطبق تلقائيًا في جميع الحالات. أحد الأمثلة على أماكن قيمتها هو التشخيص الطبي. إذا كان الشخص قد اختبر بشكل إيجابي للمرض، فليس بالضرورة أن يكون الشخص يعاني فعلاً من المرض، حتى لو كان الاختبار موثوقًا جدًا. إذا كان المرض نادرًا في السكان، فهناك فرصة جيدة أن معظم الأشخاص الذين يختبرون إيجابيًا في الواقع لا يعانون من المرض. في هذه الحالة، النتائج الإيجابية الكاذبة أكثر شيوعًا من النتائج الإيجابية الحقيقية. يختم المؤلفون بأن العلماء بحاجة لتعلم مجموعة واسعة من الطرق الإحصائية ومعرفة متى يكون كل منها هو الأداة المناسبة للمهمة. وإلا، سوف يستمر العلماء في إنتاج البحث الذي هو من الجودة المتوسطة وغالبًا ما يفشل في التكرار.'

--------- Original ---------
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."
"The application of statistics to science is not a neutral act. Statistical tools have shaped and were also shaped by its objects. In the social sciences, statistical methods fundamentally changed research practice, making statistical inference its centerpiece. At the same time, textbook writers in the social sciences have transformed rivaling statistical systems into an apparently monolithic method that could be used mechanically. The idol of a universal method for scientific inference has been worshipped since the “inference revolution” of the 1950s. Because no such method has ever been found, surrogates have been created, most notably the quest for significant p values. This form of surrogate science fosters delusions and borderline cheating and has done much harm, creating, for one, a flood of irreproducible results. Proponents of the “Bayesian revolution” should be wary of chasing yet another chimera: an apparently universal inference procedure. A better path would be to promote both an understanding of the various devices in the “statistical toolbox” and informed judgment to select among these."