The Replacement for Hypothesis Testing

By David Trafimow


Summary

'المؤلفون لهذا البحث، بريغز، نجوين، وتراميفو، يعترفون بالمشكلة المعروفة جيدا المتعلقة ب p values ومعاملات Bayes. هذه الطرق القياسية في الصناعة تؤدي إلى الثقة الزائدة والاعتقاد بأن السبب قد ثبت عندما لم يثبت. كحل، يقترح هذا البحث العودة إلى الطريقة الاحتمالية التقليدية المتكونة من ثلاث خطوات: عمل توقعات مباشرة من النماذج إلى الملاحظات. تقدير الأدلة بناءً على تأثيرها على قوة التنبؤ. التحقق من التوقعات مقابل الواقع. رغبة أي عالم في إجراء اختبار للفرضية هو تقييم الحقيقة والمنفعة للفرضية. كلا الطريقتين الحاليتين تقصر عن هذا الهدف. لا يمكن لـ p values تقييم حقيقة الفرضية بالتصميم، حيث أنها مُقصدة فقط لتكذيب الفرضية. معاملات Bayes تركز على المعلمات غير الملاحظة، لذا يمكن أن تبالغ في قوة الأدلة. النقطة الرئيسية التي يقدمها المؤلفون هي أن النماذج الإحصائية يمكن أن تجد فقط الارتباطات بين الملاحظات، ولكنها لا يمكن أن تحدد العلاقات السببية. هذا معروف جيدا بين الإحصائيين، ولكن العديد من الباحثين يعتقدون أن اختبار الفرضية يفعل ما يوحي به اسمه: اختبار صحة الفرضية. على الرغم من أن p value لا يمكن أن يحكم على حقيقة أو زيف الفرضية، إلا أن العديد من العلماء يستخدمونه بطريقة طقوسية (كما وصفها Gigerenzer). المؤلفون يعتقدون أن p values يتم استخدامها بطريقة خاطئة لدرجة أنه يجب التخلي عنها. نقدهم لمعاملات Bayes هو أنها تركز على المعلمات، التي تزيد دائما عن الثقة في الملاحظات. ومع ذلك، فإن أي غموض في المعلمات يغذي النموذج ويعزز الغموض في الملاحظات. الفلسفة المقدمة في هذا البحث تشدد على أن الاحتمال هو ظاهرة ظروفية وليست سببية. يركز على الملاحظات والعوامل القابلة للقياس التي تؤثر على الملاحظات. المؤلفون يشاركون في بناء خطة خاصة بهم لعمل توقعات قابلة للقياس، الصيغة التالية: Pr(y ∈ s|X, D, M) تحسب الصيغة احتمالية y، والتي هي عضو في مجموعة s (y ∈ s). على سبيل المثال، يمكن أن يكون y هو جانب معين من النرد و s ستكون مجموعة الجوانب: 1، 2…6. على الجانب الأيمن من الشريط العمودي، لديك ظروف حساب الاحتمال. D اختياري ويمثل أي بيانات موجودة ذات صلة. M هو القواعد التي تشكل النموذج. وX يمثل أي قيم جديدة للقياس. عادة ما يبدأ عملية بناء النموذج بتعريف M. يجب تعريف أي قاعدة ذات صلة بالاحتمال وعلاقاتها المنطقية مع القواعد الأخرى. هذه عملية تشمل بشكل كبير حكم الباحث لتحديد القواعد المتعلقة والتي تستبعد. يندب المؤلفون أن الباحثين نادرا ما يختبرون هذه الافتراضات. يجب على مبني النموذج اختبار نماذجهم بمعرفة إذا كان كل قاعدة إضافية لها تأثير قابل للقياس على احتمالية y في نقطة x ما. إذا لم تكن القاعدة لها أي تأثير على التوقعات، فإنها ترفض. يشير البحث إلى أن المدافعين الشغوفين عن p values ومعاملات Bayes لا يتبعون بشدة قواعدهم الخاصة. لكي يفعلوا ذلك، سيتعين عليهم حساب p value لكل فرضية ممكنة قبل استبعادها. هناك إمدادات لا نهاية لها من الفرضيات المحتملة، لذا فإن هذه العملية لن تنتهي أبدًا. الطريقة المقدمة هنا متوافقة مع قواعدها الخاصة. ميزة لهذا النهج هي أن تقديرات المعلمات غير الملاحظة غير ضرورية. هذه العملية المستندة إلى التوقع توحد الاختبار والتقدير. يمكن لهذا النهج أن يختبر كل من النموذج نفسه والمعلومات المغذية له. يقدم المؤلفون تطبيقين لهذه الطريقة. كلاهما مُقتبس من الأوراق التي كتبت باستخدام الطرق التقليدية. الأول كان دراسة عن مدى تذكر الأشخاص للعلامات التجارية المعروضة في الإعلانات قبل فيلم. تم التحقيق في ما إذا كان نوع الفيلم يؤثر على تذكر المشاركين. تم الكشف عن p value معنوية لنوعية الدراما، ولكن ليس للآخرين. تروج الورقة المنشورة للعثور على أن تذكر العلامة التجارية تم تحسينه بمشاهدة الأفلام الدرامية. تحليل المؤلفين الخاص كشف عن اختلافات في الاحتمال بناءً على جنس المشاهد ونوع الفيلم. بعض هذه لم يلاحظ في تحليل p value. يترك المؤلفون لقراء هذا البحث لتقرر ما إذا كانت هذه الاختلافات معنية. النموذج الثاني يجعل التوقعات من رواتب الأكاديميين بناءً على القسم، الجنس، السنوات منذ الدكتوراه، وسنوات الخبرة. يقدمون تحليل ANOVA القياسي ويقارنونه مع تحليل ANOVA التنبؤي الخاص بهم. النتائج أكثر وضوحا في التفسير. والطريقة نفسها أكثر مرونة ويمكن أن تجيب بشكل أفضل على الأسئلة ذات الاهتمام لصانعي القرار. يخلص المؤلفون إلى أن هذا النهج التنبؤي، بينما يتفوق على اختبار الفرضية التقليدي، لا يحل جميع المشكلات. الباحثون لا يزالون يتوقون للأتمتة والأجوبة النهائية. هذه الطريقة تتطلب المزيد من العمل ولا تنتج رقم سحري يدل على الأهمية. بدلاً من ذلك، فإنها تحسب بسهولة تفهم''قيم الاحتمال، التي يمكن استخدامها لاتخاذ القرارات. سيعزز نموذج جيد القرارات الجيدة. علاوة على ذلك، يتم جعل التفاصيل الداخلية لنموذج شفافة بواسطة هذه الطريقة. النقطة الأكثر أهمية هي أن يجب اختبار النماذج والتحقق منها. هذا لا يضمن أن نظرية صحيحة أو فريدة، حيث أنه من الممكن دائمًا إنشاء المزيد من النظريات لتلائم مجموعة من البيانات. ولكنه يجعل من المحتمل أن يكون نموذج قد أدى بشكل جيد في الماضي سيستمر في أن يكون مفيدًا في المستقبل.'

Jump to original

' يجري العلماء تجارب لاختبار الأفكار التي تسمى الفرضيات. يرغبون في معرفة ما إذا كانت فرضياتهم صحيحة أم لا. للتوصل إلى ذلك، غالبًا ما يستخدمون الرياضيات لحساب p-values أو عوامل Bayes. هذه الأرقام من المفترض أن تخبر العالم ما إذا كانت فرضيته صحيحة أم لا. ولكن هناك مشاكل كبيرة مع هذه الاختبارات. إنها تجعل العلماء واثقين جدًا أنهم أثبتوا شيئًا ما، عندما لم يفعلوا حقًا. لذا، يرغب كتاب هذه الورقة في اختبار الفرضيات بطريقة قديمة: استخدام النماذج للتنبؤات. وتقييم الأدلة بناءً على مدى تحسينها للتنبؤات. التحقق مما إذا كانت التنبؤات تتطابق مع الواقع. لقد ابتكر الكتاب صيغة للقيام بذلك: Pr(y ∈ s|X, D, M) هذا يحسب فرصة y لتكون في مجموعة s، استنادًا إلى: X = القياسات الجديدة، D = البيانات الحالية، M = النموذج. حتى أن الكتاب لديهم صيغة رياضية تساعدهم في حساب احتمالية حدث أو فكرة. يشمل ذلك دمج القياسات القديمة، القياسات الجديدة، وكل العوامل التي قد تغير احتمالية النتيجة. قبل أن يقوم العالم حتى ببناء نموذج، يجب أن يقرر أي العوامل قد تجعله يعمل بشكل أفضل وأيها لا يؤثر في الأمر. يختبر كل عامل لمعرفة ما إذا كان يجعل النموذج أفضل أم لا. إذا لم يكن الأمر كذلك، فهو يزيله. هذه الطريقة أفضل لأنها تختبر جودة النموذج أثناء بنائه. قدم الكتاب نموذجين باستخدام طريقتهم الجديدة على الدراسات القديمة. في كلا الحالتين، كشفت الطريقة الجديدة أفكارًا كانت الطرق القديمة قد فاتتها. على الرغم من أنها أفضل، قد لا يستخدمها العلماء، لأنها تتطلب مزيدًا من العمل ولا تعطي إجابة نعم / لا. ولكنه يعطي قيم احتمال سهلة الفهم يمكن أن تساعد في اتخاذ القرارات. نقطة مفتاحية في هذه الورقة هي أن النماذج يجب أن تختبر ضد العالم الحقيقي. هذا لا يضمن أن توقعاتها ستكون صحيحة دائمًا. ولكن النماذج التي عملت من قبل ستعمل على الأرجح مرة أخرى. بشكل عام، تركز هذه الطريقة الإحصائية الجديدة على التنبؤات القابلة للاختبار، وليس على إثبات الفرضيات. تجيب هذه الطريقة على أنواع الأسئلة التي يطرحها الأشخاص العاديون وتساعدهم على اتخاذ قرارات أفضل. '

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Jump to original

'"يستخدم العلماء غالبًا اختبارات إحصائية لمحاولة إثبات صحة فرضياتهم. اثنين من الاختبارات الشائعة هما ال 'p-values' وعوامل Bayes. لكن لهذه الاختبارات مشاكل كبيرة. إنها تجعل العلماء واثقين جدًا بأنهم أثبتوا شيئًا، عندما لم يفعلوا ذلك في الواقع. لذلك، يريد الكتّاب في هذه الورقة العودة إلى طريقة قديمة لاختبار الفرضيات: صنع التنبؤات باستخدام النماذج. راقب كمية الأدلة التي تدعم التوقعات. التحقق من مطابقة التوقعات للواقع. عندما يقوم العلماء بإجراء اختبار، يريدون معرفة ما إذا كانت فرضيتهم صحيحة ومفيدة. لكن الـ 'p-values' لا يمكنه أن يقول إذا كانت الفرضية صحيحة. وتركز عوامل Bayes على الأشياء التي لا يمكننا ملاحظتها مباشرة. لذا فإن كلا الطريقتين معيب. ها هي الصيغة التي يقترحها الكتّاب بدلاً من ذلك: Pr(y ∈ s|X, D, M) هذا يحسب احتمالية كون y جزءا من مجموعة s، استنادًا إلى: X = القياسات الجديدة، D = البيانات الموجودة، M = النموذج (الذي يتضمن جميع العوامل ذات الصلة بالتنبؤ). الخطوة الأولى في بناء النموذج هي تحديد العوامل، أو القضايا المسبقة، التي قد تؤثر على الاحتمال. اختبر كل قضية مسبقة لمعرفة ما إذا كان الاحتمال يتغير مع تضمين تلك القضية. إذا لم يكن الأمر كذلك، تخلص منه. هذه الطريقة أفضل لأنها تختبر النموذج أثناء بنائه. يظهر الكتّاب نموذجين اقتُبِسَا من دراسات قديمة. في كلا الحالتين، أعطى لهم هذا الأسلوب الجديد أفكارًا إضافية تم تجاهلها من الطرق القديمة. يتطلب الأمر المزيد من العمل للقيام به بهذه الطريقة ولا يعطي إجابة "نعم أو لا" بسيطة، لذلك قد لا يحاول العلماء القيام به. ومع ذلك، يعطي قيم الاحتمال البسيطة التي يمكن أن تكون مفيدة لاتخاذ القرارات. النقطة الرئيسية لهذه الورقة هي أن يجب اختبار النماذج ضد الواقع. هذا لا يضمن أن النموذج مثالي. لكن هذا يعني أن النماذج التي عملت في الماضي ستعمل على الأرجح في المستقبل. في المجمل، يركز هذا الأسلوب الإحصائي على التوقعات القابلة للفحص بدلاً من محاولة إثبات الفرضيات. يعطي العلماء أداة للإجابة على أسئلة البحث التي يهتم الناس في الواقع بمعرفتها. Homeschool:'

--------- Original ---------
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.
ABSTRACT. Classical hypothesis testing, whether with p-values or Bayes factors, leads to over-certainty, and produces the false idea that causes have been identified via statistical methods. The limitations and abuses of in particular p-values are so well known and by now so egregious, that a new method is badly in need. We propose returning to an old idea, making direct predictions by models of observables, assessing the value of evidence by the change in predictive ability, and then verifying the predictions against reality. The latter step is badly in need of implementation.

Leave a Reply