By Gerd Gigerenzer
Summary
'الورقة البحثية لـ Gerd Gigerenzer تنتقد الاهمال في الاهتمام بأحجام التأثير والتركيز الزائد على اختبار الفرضية الأولية في الأبحاث. على الرغم من توصيات الجمعية الأمريكية للعلم النفسي، إلا أن أحجام التأثير نادرًا ما تتم الإبلاغ عنها، مما يعيق حساب القوة الإحصائية في الاختبارات. يبرز هذه الورقة دراسة عام 1962 لجاكوب كوهين، التي كشفت أن التجارب المنشورة في مجلة العلم النفسي الرئيسية لديها فقط فرصة 50٪ لكشف تأثير متوسط الحجم، ولكن هذا لم يؤثر على مواقف الباحثين تجاه أحجام التأثير. في الحقيقة، بعد 24 سنة، ذكرت نسبة أصغر حتى من الأوراق في نفس المجلة القوة الإحصائية. تتناول هذه الورقة أيضًا تأكيد ريتشارد فينمان أن اختبار الفرضية الأولية لا معنى له بدون فرضيات بديلة محددة مسبقًا وتدين ممارسة 'overfitting' أو استخراج البيانات بشكل رجعي للحصول على نتائج مهمة. يجعل النمط المشترك لتطبيق النماذج على البيانات اختبار الفرضية اللاحقة مشكوك فيه. Overfitting، الكلمة المستخدمة لوصف هذه الممارسة التي تستخدم البيانات المعروفة لتلائم نموذج في أمل إنتاج نتائج معينة، يمكن أن ينتج عنه تفسيرات مدهشة للتباين، ولكنه يهمل كمية الضوضاء ونادرًا ما يتضمن اختبار وتأكيد النموذج على بيانات جديدة. يتم وصف الانحدارات المتعددة الخطية على أنها تطبيق طقسي للإحصاء وتقترح الورقة أن الإرشادات البسيطة (مثل اختبار نموذج على بيانات جديدة) يمكن أن توفر أحيانًا نتائج أكثر دقة. يشبه الكاتب انتشار اختبار الفرضية الأولية للطقوس الاجتماعية، مؤكدًا أن هذا التفكير الطقسي يكبت التفكير النقدي حول عملية البحث. تختتم الورقة بالتأكيد على أن الباحثين يجب أن يتجنبوا الالتزام العقلي بالطقوس الإحصائية واختيار بعناية الإجراء الإحصائي المناسب من "صندوق الأدوات". يتضمن ذلك الانتباه المناسب لأحجام التأثير، تحديد الفرضيات البديلة مسبقًا، تجنب overfitting، والابتعاد عن الاعتماد العنيد على اختبار الفرضية الأولية. يجادل Gigerenzer أن النظرية الإحصائية يجب أن تنظر إليها كمجموعة من الأدوات التي يتم تطبيقها بذكاء وبحذر. يقترح أن تحليل البيانات الوصفية غالبًا ما يكون أكثر فائدة من الإجراءات الإحصائية الحاسمة. سيعزز التحدي للوضع الراهن في البحث الأكاديمي ارتفاع التفكير الإحصائي.'
'هذا البحث، الذي كتبه جيرد جيجرينزر، يتحدث عن المشاكل المتعلقة بكيفية استخدامنا للأرقام والبيانات في العلوم. يوضح أن العديد من الباحثين لا يركزون بما فيه الكفاية على ما يهم حقًا، مثل حجم التأثير وقوة التجارب التي يقومون بها. تقول "The American Psychological Association" أن الباحثين يجب أن يخبروا الناس دائمًا عن حجم التأثير والقوة الإحصائية، لكنهم غالبًا ما لا يفعلون ذلك. دون هذه، يصبح من الصعب معرفة ما إذا كان النتيجة مهمة فعليا. منذ وقت طويل في عام 1962، وجدت دراسة أن الفرصة كانت فقط 50/50 لأن يلاحظ الباحثون تغييرًا متوسط الحجم في تجربة نفسية. على الرغم من أن الكثير من الباحثين يعرفون عن هذه المشكلة، إلا أنهم يستمرون في القيام بنفس الإجراءات الإحصائية العقيمة. لم يكن العالم الشهير ريتشارد فينمان يحب الطريقة التي نجري بها غالبًا تجارب العلم. قال إنه مجرد لأننا نجد شيئًا مثيرًا للاهتمام، هذا لا يعني الكثير إذا كنا نستطيع فقط تفسيره بعد أن حدث بالفعل. نحتاج أولاً إلى التنبؤ ثم نرى ما إذا كنا نجده. يحذر البحث أيضًا من "الإفراط في التكيف". يحدث هذا عندما نأمل أن نجد أشياء مهمة في بياناتنا ثم نبدأ في تأليف قصص لتفسير ما وجدناه. هذه ليست طريقة جيدة لاختبار الأفكار. يتحدث البحث أيضًا عن كيف يجب أن نستخدم البيانات الجديدة للتحقق مما إذا كانت أفكارنا صحيحة أم خاطئة. بدلاً من ذلك، يستخدم العلماء غالبًا الإحصائيات المعقدة للتحقق من أفكارهم. في بعض الأحيان، تكون التحليلات البسيطة أفضل من التحليلات المعقدة. عندما يحلل العلماء نتائج تجاربهم، غالبًا ما يقومون بأداء طقس (مثل اتباع وصفة لخبز كعكة) حيث يتبعون التعليمات دون التفكير حقًا فيما يقومون به. يقترح البحث أننا يجب أن نعتبر الإحصاء (علم استخدام البيانات) كصندوق أدوات، واختيار الأدوات الصحيحة بناءً على ما نحتاجه. يجب أن نعلم الطلاب هذا حتى يتمكنوا من التفكير بعناية واتخاذ قرارات ذكية. في بعض الأحيان، الأداة البسيطة هي الأفضل للمهمة. أخيرًا، يعلم البحث أننا لا ينبغي فقط اتباع القواعد في الإحصاء بشكل أعمى. نحتاج إلى التركيز على حجم التأثير ، وتقديم توقع قبل تشغيل التجربة، وعدم ابتكار القصص بعد التجربة، وعدم اتباع الإجراءات القياسية بشكل أعمى، مثل اختبار الفرضية الأولية. يجب أن نختار بعناية أفضل نهج إحصائي للمشكلة التي يتم دراستها. لإجراء هذه التحسينات، يحتاج الباحثون إلى أن يكونوا شجعان ويتساءلون عن الطريقة التي يتم بها الأمور، حتى لو كان ذلك قد يزعج بعض الناس.'
--------- Original ---------
"Statistical rituals largely eliminate statistical thinking in the social sciences. Rituals are indispensable for identification with social groups, but they should be the subject rather than the procedure of science. What I call the “null ritual” consists of three steps: (1) set up a statistical null hypothesis, but do not specify your own hypothesis nor any alternative hypothesis, (2) use the 5% significance level for rejecting the null and accepting your hypothesis, and (3) always perform this procedure."'هذا البحث من Gerd Gigerenzer يتحدث عن المشكلات في كيفية استخدامنا للإحصاءات في البحث. يقول أن العديد من الباحثين لا يولون اهتمامًا كافيًا لحجم التأثير ، الذي يخبرنا عن قوة نتيجة تجريبية. تقترح الجمعية الأمريكية للعلم النفسي (APA) أن يتم الإبلاغ عن ذلك دائمًا ، ولكن غالبًا ما لا يكون الأمر كذلك. عندما لا نعرف حجم التأثير ، من المستحيل حساب القوة الإحصائية للتجربة. وجدت دراسة قديمة من عام 1962 أن لدينا فقط 50٪ فرصة للقبض على تأثير متوسط في تجربة العلم النفسي. بالرغم من أن الكثير من الناس يعرفون عن هذه المشكلة ، إلا أنه لم يغير حقا كيفية قيام الباحثين بأعمالهم. انتقد العالم الشهير Richard Feynman كيف نحلل غالبًا نتائج التجارب. أشار إلى أن مجرد العثور على شيء يبدو كبير الأهمية ويمر في اختبار إحصائي ، لا يعني الكثير إذا لم نقم بتوقع للبدء. هذا مجرد صنع قصة بعد الحقيقة. يحذر Gigerenzer أيضًا من "التناسق الزائد". هذا عندما نستمر في تحليل البيانات حتى نجد نتائج هامة ثم نصنع قصصًا لتناسب ما وجدنا. فقط لأننا يمكن أن نجعل نماذجنا تناسب البيانات الموجودة ، هذا لا يعني أننا نختبر أفكارنا بشكل جيد. يمكن أن تتناسب الإجراءات الإحصائية المعقدة جدا حتى مع الضجيج العشوائي لنموذجنا ، لذا في بعض الأحيان يكون تحليل إحصائي بسيط هو الأفضل. الأفضل هو اختبار نموذج موجود على بيانات جديدة. يصف الورقة كيف يجري الباحثون غالبًا تحليلًا إحصائيًا لنتائجهم التجريبية كما لو كانوا يؤدون طقوسًا. ليسوا يفكرون بعناية فيما يقومون به ، بل يتبعون طريقة معينة بدون تفكير. هم متحمسون للعثور على p-value صغير ، وهو ما يحدد ما إذا كان بإمكانهم نشر نتائجهم أم لا. يتعلم العلماء معظمهم أن p-value الصغير يعني أن التجربة "مهمة" ، ولكن حتى مخترع p-value نصح ضد ذلك. تقترح الورقة أننا يجب أن نعلم الطلاب النظر في النظرية الإحصائية كصندوق أدوات ، حيث يجب استخدام أدوات مختلفة حسب الوضع. في بعض الأحيان ، يكون تحليل البيانات البسيط والواضح ليس فقط كافيًا ، ولكنه أفضل. لإصلاح هذه المشكلة المنتشرة ، يحتاج الباحثون إلى أن يكونوا شجعان وتحدي الأساليب الحالية ، حتى لو كان قد يزعج بعض الناس. في النهاية ، ينصح Gigerenzer أننا لا يجب أن نتبع فقط الطقوس في الإحصاء دون التفكير. بدلاً من ذلك ، يجب أن نبلغ دائمًا عن أحجام التأثير ، ونصنع التوقعات قبل إجراء التجارب ، ولا نصنع القصص لتناسب البيانات ، ولا نجري اختبارات فرضية null بدون تفكير. يؤكد أننا يجب استخدام مجموعة أوسع من الإجراءات الإحصائية واختيار بعناية أيها مناسب لكل تجربة. يطلق Gigerenzer على هذا "التفكير الإحصائي" ويشجع المزيد من الباحثين على تجربته.'