A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument

By David Trafimow


Summary

'تقوم القيمة p بحساب احتمالية مجموعة من البيانات إذا كانت الفرضية الأولية صحيحة: P(F|H0). يفترض الناس أن هناك ارتباط عالي بين احتمال النتائج بناءً على الفرضية الأولية والعكس: احتمال الفرضية بناءً على النتائج: P(H0|F). هذه الورقة من عام 2009 بقلم ديفيد ترافيمو وستيفن رايس هي الأولى التي تختبر ما إذا كانت هذه الافتراضات صحيحة فعلاً أم لا. تشير نتائجهم إلى أن الارتباط هو "غير مثير للإعجاب" ولا يوفر أي مبرر لاستخدام قيم p. أثارت إجراءات اختبار أهمية الفرضية الأولية (NHSTP) الكثير من الجدل في السنوات الأخيرة. يتضمن هذا الإجراء المستخدم على نطاق واسع: تعريف الفرضية الأولية والفرضية البديلة. جمع البيانات لاختبار هذه الفرضيات. حساب قيمة p. القيمة p هي احتمالية البيانات الملاحظة، أو شيء أكثر تطرفًا، إذا كانت الفرضية الأولية صحيحة. قيمة منخفضة (أقل من 0.05) تعني تقليديًا أن الباحث يمكنه رفض الفرضية الأولية لصالح الفرضية البديلة. أقوى الحجج ضد القيمة p هو أنها غير منطقية. إذا تم الحصول على نتيجة نادرة بناءً على افتراض أن الفرضية الأولية صحيحة، فهذا لا يثبت بشكل قاطع أن الفرضية الأولية غير صحيحة. بمعنى آخر، قيمة p صغيرة، P(F|H0)، لا يعني احتمالية صغيرة للفرضية بناءً على النتائج، P(H0|F). للحصول على ذلك، P(H0|F)، تحتاج إلى معرفة احتمالية الفرضية الأولى. هذا يتطلب استخدام نظرية بايز. رفض الفرضية الأولية على أساس قيمة p صغيرة يتطلب افتراضًا إضافيًا: أن هناك ارتباط بين احتمالية البيانات بناءً على الفرضية الأولية واحتمالية الفرضية الأولية بناءً على البيانات. قام الكتاب بتجربة ما إذا كان هناك ارتباط قوي هنا أم لا. لإجراء هذا الاختبار، كان الكتاب بحاجة لمعرفة ثلاث قيم رئيسية: احتمالية البيانات بناءً على صحة الفرضية الأولية، P(F|H0)، واحتمالية الفرضية الأولى، P(H0)، واحتمالية البيانات إذا كانت الفرضية الأولية غير صحيحة، P(H0|F). الأولى من هذه هي ببساطة القيمة p ويمكن تحديدها مباشرة من التجربة. الثانية أكثر تعقيداً. في معظم الحالات، يضطر الباحثون لإجراء افتراضات ذات طابع ذاتي لتحديد احتمالية الفرضية الأولى. وفي الثالثة، هناك طرق لا نهاية لها يمكن أن تكون الفرضية غير صحيحة. ومع ذلك، تمكن الكتاب من نمذجة آثار اتخاذ افتراضات مختلفة ورؤية كيف يؤثرون على النتائج. حسبوا كل القيم الثلاث الرئيسية لمجموعات بيانات تم إنشاؤها عشوائياً بعدد 65,000. وجد التحليل ارتباط ضعيف جدا (r = .410) بين احتمالية البيانات بناءً على الفرضية الأولية، P(F|H0)، واحتمالية الفرضية الأولية بناءً على البيانات، P(H0|F). تم تحديد عتبة الاحتمالية لهذا التحليل عند .05 لكل قيمة. نتيجة هذا التحليل هو أن القيمة p لا تأخذ في الاعتبار معظم (84%) الاختلاف في احتمالية الفرضية الأولية بناءً على البيانات، P(H0|F). لذلك، فإن الارتباط المفترض بين القيمة p وP(H0|F) ليس "تبريرًا مقنعًا للاستخدام الروتيني لقيم p في البحوث العلمية الاجتماعية". ينظرون في بعض الاقتراحات المختلفة. واحد هو استبدال القيم p بحساب احتمال الاستنساخ، prep. يحسب هذا احتمال أن تجد التجربة الثانية بظروف مطابقة للأولى نتائج تذهب في نفس الاتجاه كالتجربة الأولى. ينتقد الكتاب prep لأنه يفشل في النظر في توزيعات الاحتمال السابقة. ولقد أجروا تحليل للprep مشابه للتحليل السابق للقيم p وكانت النتائج مخيبة للآمال. ليس واضحًا ما إذا كان هذا الاختبار يقيس حتى احتمالية الاستنساخ. البديل الآخر للقيم p هو نظرية بايز. هذا سوف يعطي علماء النفس ما يبحثون عنه: احتمالية الفرضية الأولية بناءً على نتائجهم، P(H0|F). ومع ذلك، يرون الكتاب ثلاثة مشاكل محتملة: (1) لا توجد طريقة متفق عليها لتحديد احتمالية الفرضية الأولية، P(H0)؛ (2) من غير الواضح كيفية تحديد احتمالية النتيجة بناءً على أن الفرضية الأولية غير صحيحة، P(F|~H0)، حيث يمكن أن تكون الفرضية غير صحيحة بطرق تقترب من اللا نهائية؛ (3) تفسر نظرية بايز الاحتمال كدرجة من الإيمان العقلي بدلاً من التردد المتوقع. هذا يؤدي إلى مجموعة من التعقيدات غير المحلولة. اقترح أحد كتاب هذه الورقة، ترافيمو، طريقة بديلة تعتمد على النسب المعرفية. يتم وصفها بشكل موجز في هذه الورقة. لها نكهة "بايزية"، ولكنها متوافقة مع التفسيرات الكثيرة للاحتمال. يشمل ذلك مقارنة فرضيتين منافسيتين. يمكن تحديد احتمالية النتائج بناءً على أي من الفرضيتين المنافسيتين بسهولة. يمكن بعد ذلك مقارنة نسبة المعرفة للفرضيتين لمساعدة الباحث على تحديد الفرضية التي هي.''أكثر ملاءمة. العيوب هي أنه يتطلب من الباحثين وضع العديد من الفرضيات ولا يحسب احتمال أي فرضية بناءً على النتائج. يخلص الكتاب بأن العديد من التحليلات السابقة لـ NHSTP لم تصل إلى جوهر المشكلة. غالبًا ما أكد المؤيدون على الارتباط بين احتمال البيانات بناءً على الفرضية الأولية ، القيمة p ، واحتمال الفرضية الأولية بناءً على البيانات ، P(H0|F). ولكنهم لم يقدموا أي دليل يثبت وجود هذا الارتباط بالفعل. وضع هذا الورقة الارتباط المأمول للتجربة وفشل.'

Jump to original

'تستخدم قيمة الـ "p value" من قبل العلماء لاختبار فرضياتهم، والتي تعتبر أفكار حول كيفية عمل شيء ما في العالم. قيمة الـ "p value" تقيس الاحتمالية النتائج التجريبية إذا كانت الفرضية الفارغة صحيحة. الفرضية الفارغة تعني أن ما فعلته في تجربتك ليس له تأثير. قيمة الـ "p value" القليلة تعني أن نتيجة التجربة غير محتملة إذا كانت الفرضية الفارغة صحيحة. الكثير من الناس يفترضون أن قيمة الـ "p value" القليلة تعني أيضًا أن الفرضية الفارغة خاطئة. لكن لا أحد اختبر حقا ما إذا كان هذا صحيحا أو لا حتى الآن. قام مؤلفو هذا البحث بالاختبار ووجدوا أن قيمة الـ "p value" واحتمالية الفرضية الفارغة ليستا مرتبطتين بشكل وثيق. العثور على قيمة "p value" صغيرة لا يعني أن الفرضية الفارغة خاطئة. نظر المؤلفون أيضا في بعض البدائل لـ "p value": معرفة احتمالية تكرار النتيجة نفسها إذا تمت التجربة مرة أخرى باستخدام شيء يسمى بـ "Bayes Theorem" والذي يحسب احتمالية الفرضية الفارغة. ينطوي ذلك على معرفة مدى احتمالية الفرضية الفارغة قبل التجربة. وهناك طريقة أخرى حيث تقارن فرضيتين مختلفتين لمعرفة أيهما يفسر نتائج التجربة بشكل أفضل كل من هذه الطرق جيدة بطرق ما، ولكن لديها بعض الجوانب السلبية أيضًا. يجادل مؤلفو هذا البحث أنه ليس هناك سبب جيد لاستخدام قيمة "p value". لقد أظهروا أن أحد أفضل الأسباب لاستخدام قيمة "p value" كانت خاطئة في الواقع.'

--------- Original ---------
ABSTRACT. Some supporters of the null hypothesis significance testing procedure recognize that the logic on which it depends is invalid because it only produces the probability of the data if given the null hypothesis and not the probability of the null hypothesis if given the data (e.g., J. Krueger, 2001). However, the supporters argue that the procedure is good enough because they believe that the probability of the data if given the null hypothesis correlates with the probability of the null hypothesis if given the data. The present authors’ main goal was to test the size of the alleged correlation. To date, no other researchers have done so. The present findings indicate that the correlation is unimpressive and fails to provide a compelling justification for computing p values. Furthermore, as the significance rule becomes more stringent (e.g., .01, .001), the correlation decreases.

Jump to original

'تُستخدم قيم الـ "p values" بشكل شائع في البحث لاختبار الفرضيات ، التي هي توقعات حول كيفية عمل شيء ما. تقيس قيمة "p value" مدى احتمالية نتائج تجربتك إذا لم يكن هناك تأثير لتجربتك (فرضية فراغ صحيحة). يفترض الكثيرون أن قيمة "p value" منخفضة تعني أيضًا أن الفرضية الفراغية غير مرجح أن تكون صحيحة. لكن هذا الافتراض لم يتم اختباره حقا. اختبرت هذه الورقة هذا الافتراض. وجدوا أن العلاقة بين قيم "p values" واحتمالية صحة الفرضية الفراغية ضعيفة في الواقع. لذا قيم "p values" لا تخبرنا الكثير عن احتمالية الفرضية الفراغية كما يعتقد الناس. ناقش الكتاب بعض البدائل لقيم الـ "p values": حساب احتمالية تكرار التجربة باستخدام نظرية Bayes لحساب احتمالية صحة الفرضية الفراغية مباشرة ، والتي تنطوي على احتساب احتمالية الفرضية الفراغية قبل التجربة مقارنة الفرضيات باستخدام "نسب epistemic" هناك نقاط تدعم كل من هذه الأفكار ، ولكن هناك أيضًا سلبيات. يجادل الكتاب أن الاستخدام الروتيني لقيم الـ "p values" في البحث غير مبرر جيدًا. لقد أبطلت هذه الورقة حجة مهمة تدعم قيم الـ "p values" ، وهي أن قيمة "p value" تعني معرفة حول صحة الفرضية الفراغية. التعلم في المنزل: العنوان: فهم واستكشاف أخطاء HTTP: وحدة التعلم المنزلية الهدف: تجهيز الآباء بمعرفة استكشاف أخطاء الإنترنت ، بشكل خاص أكواد الخطأ HTTP، لدعم تعليم أطفالهم في المنزل. الأدوات المطلوبة: جهاز به إمكانية الاتصال بالإنترنت (كمبيوتر / لاب توب / جهاز لوحي) ، مواد ومصادر عبر الإنترنت ، أدوات المحاكاة (اختيارية) دليل المنهج الدراسي: الأسبوع 1: مقدمة وأساسيات التصفح عبر الإنترنت - فهم الويب العالمي - كيف تعمل محركات البحث - فهم عناوين URL الأسبوع 2: مقدمة إلى HTTP - ما هو HTTP؟ - دور HTTP في التصفح عبر الإنترنت - طرق HTTP الشائعة الأسبوع 3: فهم أكواد حالة HTTP - ما هي أكواد حالة HTTP؟ - أصناف أكواد حالة HTTP - الأكواد الشائعة لحالة HTTP ومعانيها الأسبوع 4: تفصيلي بشأن خطأ HTTP 403: Forbidden - تفسير كود خطأ HTTP 403: Forbidden - أسباب أخطاء HTTP 403 - كيفية حل أخطاء الخادم 403 - تمرين عملي: تحديد والتفاعل مع الخطأ 403 الأسبوع 5: دليل استكشاف الأخطاء لأخطاء HTTP - نصائح عامة لاستكشاف أخطاء HTTP - حلول محددة لأخطاء HTTP 403 - كيفية طلب المساعدة عند مواجهة أخطاء الإنترنت - النشاط النهائي: إنشاء دليل لاستكشاف الأخطاء يتعلق دليل المنهج الدراسي المذكور أعلاه بالتعديلات حسب معرفة الأهل المسبقة والاطلاع على التكنولوجيا. يمكن تكييف وتيرة الدروس أيضًا بناءً على استيعاب وفهم المتعلم. الموارد متاحة أيضًا بحرية من مجموعة متنوعة من المنصات عبر الإنترنت التي تغطي كل من النظرية والعناصر العملية للتعامل مع أخطاء HTTP. في النهاية ، الهدف هو تمكين الآباء من القدرة على استكشاف أخطاء الإنترنت الأساسية التي قد يواجهها أطفالهم أثناء التعليم في المنزل. '

--------- Original ---------
ABSTRACT. Some supporters of the null hypothesis significance testing procedure recognize that the logic on which it depends is invalid because it only produces the probability of the data if given the null hypothesis and not the probability of the null hypothesis if given the data (e.g., J. Krueger, 2001). However, the supporters argue that the procedure is good enough because they believe that the probability of the data if given the null hypothesis correlates with the probability of the null hypothesis if given the data. The present authors’ main goal was to test the size of the alleged correlation. To date, no other researchers have done so. The present findings indicate that the correlation is unimpressive and fails to provide a compelling justification for computing p values. Furthermore, as the significance rule becomes more stringent (e.g., .01, .001), the correlation decreases.
ABSTRACT. Some supporters of the null hypothesis significance testing procedure recognize that the logic on which it depends is invalid because it only produces the probability of the data if given the null hypothesis and not the probability of the null hypothesis if given the data (e.g., J. Krueger, 2001). However, the supporters argue that the procedure is good enough because they believe that the probability of the data if given the null hypothesis correlates with the probability of the null hypothesis if given the data. The present authors’ main goal was to test the size of the alleged correlation. To date, no other researchers have done so. The present findings indicate that the correlation is unimpressive and fails to provide a compelling justification for computing p values. Furthermore, as the significance rule becomes more stringent (e.g., .01, .001), the correlation decreases.