Summary
'تتناول هذه المقالة التي كتبتها ريجينا نوزو نظرة دقيقة على "P value" ، التي تعتبر "المعيار الذهبي لصحة الإحصاء". وعلى الرغم من استخدامها على نطاق واسع، فقد لا يكون موثوقًا كما يعتقد معظم العلماء. تروي قصة مات موتيل، طالب الدكتوراه في علم النفس الذي بحث عن المتطرفين السياسيين. كانت فرضيته أن المعتدلين السياسيين يمكنهم أن يلاحظوا الظلال الرمادية بدقة أكثر من اليمينيين أو اليساريين المتطرفين. دعمت البيانات الأولية هذه الفرضية، مما أدى إلى "P value" بقيمة 0.01 والتي تتم تفسيرها تقليديًا على أنها "معنوية جداً". ولكن، عند إعادة الدراسة بحذر أكثر، موتيل ومستشاره، براين نوسك، لم يجدوا نتائج معنوية. كانت "P value" بقيمة 0.59. بذلك، فقدت الفرضية الجذابة التي قدمها موتيل وتلاشت آماله في النشر. يبدو أن المتطرفين لا يرون العالم حقاً بشكل أسود وأبيض. موتيل لم يكن قد ارتكب أي خطأ. كان "P value" هو المتهم. في عام 2005، نشر عالم الأوبئة جون إيوانيديس ورقته الشهيرة الآن، Why Most Published Research Findings are False. ألقت الورقة الضوء على أزمة التكرار، التي تزداد سوءًا منذ ذلك الحين. العلماء الآن يعيدون التفكير في كيفية تنفيذ أعمالهم، بما في ذلك استخدام "P values". تعرضت "P values" للانتقاد من قبل الإحصائيين منذ أن أدخلها رونالد فيشر في العشرينيات. اقترح أحد الباحثين الساخرين أن يتم تغيير اسمها إلى "Statistical Hypothesis Inference Testing"، وهو ما يكون منطقياً بمجرد النظر إلى اختصارها. حتى مخترع "P value" لم يقصد استخدامها على النحو الذي يتم فيه اليوم. كان من المفترض أن تكون وسيلة سريعة لمعرفة ما إذا كانت نتائج التجربة "متوافقة مع الفرصة العشوائية". تضمن هذا سلسلة من الخطوات: تحديد فرضية خاطئة، تتوقع "عدم وجود ارتباط" أو "عدم وجود فرق" بين المجموعتين. بالافتراض أن الفرضية الخاطئة صحيحة، حساب احتمال الحصول على نتائج مماثلة أو أكثر تطرفًا مقارنة بما تم مشاهدته. هذا الاحتمال هو "P value". القيمة العالية تعني أن النتائج تتفق مع الفرضية الخاطئة. القيمة المنخفضة تعني أنه يمكن رفض الفرضية الخاطئة. الغرض من "P value" هو قياس "ما إذا كان يمكن نسب النتيجة الملاحظة إلى الفرصة". ولكنها لا تستطيع الإجابة على ما إذا كانت فرضية الباحث صحيحة أم لا. وهذا يعتمد جزئياً على مدى مصداقية الفرضية في البداية. ففرضية غير واقعية مع قيمة p قليلة ستصبح قليلةً أكثر واقعية فقط. منافسو فيشر، جيرزي نيمان وإيغون بيرسون، قاموا بترويج نظام بديل يعتمد على القوة الإحصائية (كم من المحتمل أن يكتشف التحليل تأثيراً). يمكن تقويم الأسلوب بناءً على الأهمية النسبية للنتائج الإيجابية الكاذبة والنتائج السلبية الكاذبة. الشيء البارز الذي غاب كان "P value". وصف نيمان عمل فيشر بأنه "أسوأ من العديم". وصف فيشر نهج نيمان بأنه "طفولي" واتهم الرياضي البولندي بأنه كومونيست. على الجانب الخارجي من هذه المعركة الحامية، بدأ الباحثون الذين لم يكونوا إحصائيين في كتابة دلائل للعلماء العاملين، تعلم نهجًا مختلطًا. أدمج الأفكار من فيشر، نيمان، وبيرسون، ولكنه لن يتم تأييده من أي منهما. كان إجرائي وقائم على القواعد مثل نظام نيمان-بيرسون واستخدم "P value" البسيطة لفيشر. أعلنوا أن "P value" أقل من عتبة 0.05 هو "معنوي". هذا لم يكن نية فيشر، ولكنه يتم استخدامه بهذه الطريقة اليوم. معظم العلماء في حيرة حول ما يعنيه حقاً "P value". يقول معظمهم أن قيمة 0.01 تعني أن هناك فرصة 1% أن النتيجة هي نتيجة إيجابية كاذبة. ولكن، هذا خاطئ. يمكن أن يصف "P value" فقط الاحتمالية للبيانات بالافتراض أن الفرضية الخاطئة صحيحة. ولكنه لا يستطيع أن يقول شيئاً عن احتمالية وجود تأثير يتسبب فيه الفرضية التجريبية. ولتحقيق هذا يتطلب معرفة الاحتمالات التي يحدث بها تأثير كهذا. تقدم نوزو المثال على الاستيقاظ بصداع والتفكير في أنك لديك ورم دماغ نادر. إنه ممكن، ولكن لا يزال غير محتمل. كلما كانت الفرضية أقل واقعية، كلما كان من المحتمل أن تكون النتيجة نتيجة إيجابية كاذبة، حتى مع قيمة P صغيرة. حاول بعض الإحصائيين تقديم قاعدة عامة لحساب احتمالية تأثير حقيقي بناءً على قيمة P صغيرة. على سبيل المثال، يعتبر "P value" بقيمة 0.01 يعني احتمالية 11% على الأقل أن لديك نتيجة إيجابية كاذبة. بالنسبة لـ "P value" بقيمة 0.05، يزيد هذا الاحتمال إلى 29% على الأقل. في حالة دراسة موتيل حول المتطرفين السياسيين، كانت "P value" الخاصة به بقيمة .01 تعني أن هناك احتمالية 11% على الأقل أن الدراسة لن تتكرر واحتمالية 50% فقط للعثور على نتيجة أخرى ذات أهمية عالية بشكل مماثل. الانتقاد الرئيسي لـ "P value" هو أنها لا تظهر حجم التأثير الفعلي. تذكر نوزو دراسة حول معدلات الطلاق لتوضيح هذه النقطة. الأشخاص الذين التقوا بزوجاتهم عبر الإنترنت كانوا يعانون من معدلات طلاق أقل بنسبة 25% من الذين التقوا بشريك حياتهم في ظروف أخرى. ولكن معدل الطلاق لدى الأشخاص الذين التقوا عبر الإنترنت كان 4.96%، مقارنة بـ 6.67% لدى الذين التقوا في ظروف أخرى. أي أن التأثير الحقيقي كان ضئيلًا. الانتقادات الأخرى لـ "P value" تتضمن التأثيرات النفسية التي قد تغير النتائج. الباحثون الذين يعملون بجد على التجارب قد يكونون محبطين إذا لم يكن هناك نتائج معنوية. هذا قد يؤدي إلى محاولة التلاعب في البيانات، الإقرار بأن النتائج كانت مختلفة عن الواقع، أو التوقف عن العمل في هذا المجال. ومن الجدير بالذكر أن هذا ليس مشكلة فقط للأعداد الصغيرة. حتى القيم الأكبر من 0.05 تعتبر "غير معنوية"، وبالتالي فإن الباحثون قد يحاولون إيجاد طرق لتحقيق هذا الهدف. يوجد نظام آخر يُطلق عليه اسم "crossfit". يعتبر أن "P value" هي جزء من عملية أكبر، والتي تتضمن البحث عن تأثيرات قوية، والتأكد من عدم الانحياز، وإعادة الاختبار. يجب على الباحثين أيضًا القيام بمحاكاة لمعرفة كيف ستؤثر النتائج المختلفة على النتائج النهائية. العديد من العلماء يرون أن هذا هو الاتجاه الجديد للمستقبل. واحدة من القضايا الرئيسية في البحث العلمي هي المراجعة من قبل الأقران. العديد من البحوث تتم مراجعتها من قبل أقران للباحث قبل النشر. ولكن هذه العملية قد تكون معيبة. بعض الأقران قد يكونون أكثر تحيزًا من الباحث نفسه. وقد يكون الباحثين قد تعرضوا للضغط من أجل النشر، مما يقلل من القدرة على إجراء تحقيق دقيق. للمساعدة في حل هذه المشكلات، تم إطلاق مبادرة The Broken Science Initiative. الهدف هو تحسين جودة البحث العلمي، وجعل العملية أكثر شفافية، والسماح للمراجعين بإعطاء تعليقات مجهولة. ولكن تحقيق هذه الأهداف يتطلب تغييرًا في ثقافة البحث العلمي وفي الطريقة التي يتعامل بها العلماء مع فشل التجارب. يجب على العلماء التعلم من الأخطاء ومشاركة الفشل بنفس القدر الذي يشاركون فيه النجاح. الهدف هو تحقيق أعلى مستوى من الدقة والأمانة في البحث العلمي.''بشكل كبير (p <.002) أقل احتمالاً للطلاق مقارنةً بالأشخاص الذين التقوا بشكل غير مباشر. ومع ذلك، فإن الفرق الفعلي في معدلات الطلاق كان 5.96٪ مقابل 7.67٪. فقط لأن تأثير هو "مهم" لا يعني أنه في الواقع يهم في العالم الحقيقي. مشكلة أخرى مع القيم العابرة هي أن الباحثين تعلموا طرقًا للتغلب على قيمة P العالية (p >.05). الاسم المُطلَق على هذا، من قِبَل Uri Simonsohn، هو "P-hacking". في الأساس يعني تجربة أشياء متعددة حتى تجد نتيجة مهمة. يمكن أن يتضمن هذا النظر في البيانات، أو تمديد أو إيقاف تجربة مرة واحدة يتم الوصول إلى الأهمية، أو التنقيب عن بعض مجموعات العوامل التي تُظهر قيمة P منخفضة. P-hacking شائع بشكل خاص الآن حيث أن الكثير من الأوراق البحثية تتعقب تأثيرات صغيرة في مجموعات بيانات ضجيجية. النتيجة النهائية هي أن الاكتشافات الناتجة عن البحث الاستكشافي تُعامَل كتأكيدات للتأثيرات. ومع ذلك، فإنه من غير المرجح أن تتكرر، خاصةً إذا كان P-hacking مشتركًا. ستتطلب أي آمال للإصلاح تغيير في ثقافة وتعليم الباحثين. يجب تشجيع المحصلين على عدم الإبلاغ عن نتائجهم كـ "مهمة" أو "غير مهمة"، ولكن بدلاً من ذلك تقديم تقارير حول أحجام التأثير والفترات الزمنية. تجيب هذه على الأسئلة ذات الصلة بحجم وأهمية الاكتشاف. البعض يشجع المجتمع العلمي على تبني قاعدة بايز. هذا يتطلب تحول في التفكير بعيدًا عن الاحتمال كمقياس لتقدير تكرار النتيجة إلى الاحتمال كمقياس لمدى المصداقية. الميزة في النهج البايزي هو أن العلماء يمكنهم تضمين ما يعرفونه بالفعل عن العالم في حسابات الاحتمالات (تسمى "الاحتمالات السابقة"). ويمكنهم حساب كيفية تغيير الاحتمالات مع إضافة أدلة جديدة (تُسمى "الاحتمالات اللاحقة"). تتضمن الاصلاحات المقترحة الأخرى إلزام العلماء بشرح البيانات المحذوفة والتلاعب. يمكن أن يقلل هذا من P-hacking إذا كان الباحثون صادقين. فكرة أخرى تسمى "تحليل مرحلتين". يتضمن تقسيم مشروع بحثي إلى مرحلة استكشافية، حيث يمكن اكتشاف النتائج المثيرة للاهتمام وتتبعها بمرحلة تأكيد مسجلة مسبقًا. سيتم نشر التكرار بجانب النتائج من الدراسة الاستكشافية. يمكن أن يقلل تحليل المرحلتين بشكل محتمل من النتائج الإيجابية الكاذبة، بينما مازال يقدم للباحثين المرونة. تخلص الورقة بتشجيع العلماء على "إدراك حدود الإحصاءات التقليدية." يجب أن يكونوا أكثر استعداداً لمناقشة مدى الأرجحية لفرضياتهم والقيود التي تفرضها دراساتهم في الأوراق البحثية. يجب دائماً أن يسأل العالم ثلاثة أسئلة رئيسية بعد الدراسة: ما هو الدليل؟ ما الذي يجب أن أصدقه؟ ما الذي يجب أن أفعله؟ طريقة واحدة للتحليل لا يمكن أن توفر جميع الإجابات.'
'تُستخدم قيم P بشكل شائع من قبل العلماء لمعرفة ما إذا كان ما يقومون بتحقيقه مهمًا أم لا. ولكن، قد لا تكون موثوقة كما يعتقد الكثير من العلماء. على سبيل المثال، اعتقد عالم يدعى Matt Motyl في عام 2010 أنه اكتشف أن الأشخاص ذوي الآراء السياسية المتطرفة يرون العالم بشكل حرفي في أسود وأبيض. كانت قيمة P تشير إلى أن هذا الاكتشاف كان ذا أهمية كبيرة. ولكن عندما حاول هو ومعلمه إجراء الدراسة مرة أخرى، لم تكن قيمة P حتى قريبة من أن تكون مهمة. الفكرة التي كان قد اكتشف شيئًا مهمًا اختفت. لم يكن المشكلة في البيانات أو كيف تم تحليلها. كانت قيمة P ذاتها. ليست حقًا موثوقة كما يعتقد معظم العلماء. حتى بعض الإحصائيين - الأشخاص الذين يدرسون ويعملون مع أمور مثل قيم P - يعتقدون أنها قد لا تكون مفيدة دائمًا. يمكن أن يكون هذا مشكلة كبيرة عندما يحاول العلماء معرفة ما إذا كان يمكن تكرار نتائجهم، وهو جزء مهم من العلم. في الواقع، تم اقتراح أن معظم النتائج العلمية المنشورة قد تكون خاطئة في الواقع. لذا، يحاول بعض الإحصائيين العثور على طرق أفضل للنظر في البيانات التي يمكن أن تساعد العلماء على تجنب الأخطاء أو تجاهل الأمور المهمة. على الرغم من كل هذه المشكلات، تم استخدام قيم P لما يقرب من 90 عامًا، لذا فهي صعبة التخلص منها بالفعل. في العشرينات، قدم رجل من المملكة المتحدة يدعى Ronald Fisher مفهومًا يسمى 'P value'. لم يكن يقصد أن يكون اختبارًا شاملًا، ولكنه كان طريقة بسيطة للتحقق مما إذا كانت الأدلة تستحق النظر إليها بشكل أقرب. أراد الناس استخدامه أثناء التجارب للتحقق مما إذا كانت نتائجهم عشوائية فقط أو إذا كانت تعني شيئًا حقيقيًا. كانت الخطة هي البدء بتوقع، يسمى "فرضية فراغية"، أرادوا إثبات خطأها، مثل القول أنه لا يوجد رابط أو فرق بين شيئين أو مجموعتين. ثم، سيتظاهرون بأن فرضيتهم الفراغية كانت صحيحة فعليًا، وسيحاولون معرفة ما هي الاحتمالات للحصول على النتائج التي حصلوا عليها، أو شيء حتى أكثر تطرفًا. كانت هذه الفرصة التي حسبوها هي قيمة P. كلما كانت هذه القيمة أصغر، كان احتمال خطأ فرضيتهم الفراغية أكبر. على الرغم من أن قيمة P بدت دقيقة، إلا أن Fisher أراد فقط أن تكون جزءًا من طريقة لجعل الاستنتاجات العلمية تخلط البيانات والمعرفة العامة. كان لـ Fisher بعض الأعداء الذين قالوا إن طريقته كانت "أسوأ من عدم الفائدة". قادت هذه الحركة Jerzy Neyman و Egon Pearson، اقترحت طريقة أخرى لتحليل البيانات، ولكن تركت قيمة P. بسبب خلافاتهم، احترقت الناس وبدأت في كتابة دلائل للاستخدام العلمي عند التعامل مع الإحصاءات. العديد من تلك الكتب لم يفهم مؤلفوها النهجين، لذا فقط خلطوهما معا وهذا هو الوقت الذي أصبح فيه قيمة P 0.05 القياس القياسي لـ 'الدلالة الإحصائية'. لم يكن القصد من قيمة P أن تستخدم كما هو الحال اليوم. عندما يجري الباحثون تجربة ويحصلون على قيمة P صغيرة، غالبًا ما يعتقدون أن هذا يعني أنهم سوف يحصلون على نفس النتيجة إذا أجروا التجربة مرة أخرى. ولكن هناك مشكلة. قيمة P من 0.01 لا تعني أن هناك فرصة بنسبة 1% لكونها خاطئة. يعتمد الأمر أيضًا على مدى احتمالية الأثر الذي كان يدرس في البداية. إذا كان غير محتمل، فإن الفرصة الفعلية لكونه خاطئًا هي 11%. لذا، إذا كان العالم يعتقد أن تجربته ستنجح 99 من أصل 100 مرة، فقد يكون الحقيقة أقرب إلى 73 من أصل 100 مرة. يقول النقاد أيضًا أن قيم P يمكن أن تجعل الباحثين ينسون حجم التأثير الذي يدرسونه. على سبيل المثال، قالت دراسة أن الأشخاص الذين التقوا بأزواجهم عبر الإنترنت كانوا أقل احتمالية للطلاق وكانوا أكثر سعادة في زواجهم. ولكن عند النظر بعناية، كانت الفروق الفعلية بين المجموعات ضئيلة.. والأسوأ من ذلك، يمكن سوء استخدام قيم P من قبل الباحثين الذين يستمرون في الاختبار حتى يحصلون على النتائج التي يريدون. يطلق على هذا اسم P-hacking. يمكن أن يجعل الأمور تبدو وكأنها اكتشافات جديدة حتى لو كانوا يستكشفون فقط. لذا، لا يمكن لقيمة P وحدها أن تخبرنا حقًا إذا كانت نتائج التجربة حقيقية، أو مهمة، أو ما إذا كنا نلعب فقط مع الأرقام. يتم غالبًا P-hacking في الدراسات التي تبحث عن تأثيرات ضئيلة داخل معلومات معقدة كثيرًا. من الصعب معرفة مدى كبر هذه المشكلة، ولكن الكثير من العلماء يعتقدون أنها مشكلة كبيرة. في مراجعة واحدة، وجدوا سلوكًا مشبوهًا في دراسات علم النفس حيث تجتمع قيم P الكثيرة بالقرب من 0.05. يبدو أن الباحثين يغشون للحصول على قيمة P ذات دلالة. ومع ذلك، كان تغيير الطريقة التي نقوم بالإحصاءات بها بطيئًا. لم يتم'' لم تتغير حقا منذ أن قدمها فيشر، نيمان، وبيرسون. قام بعض الأشخاص بمحاولة تشجيع عدم استخدام الـ p values في دراساتهم، لكن هذا لم يكن ناجحًا. لكي نصلح، يجب أن نغير الكثير من العادات القديمة مثل كيفية تعليمنا للإحصاء، كيف نحلل البيانات وكيف نقدم ونفسر النتائج. على الأقل الآن، يعترف العديد من الباحثين بأن هناك مشكلة. يعتقد الباحثون أنه بدلاً من تسمية النتائج بـ "مهمة" أو "غير مهمة"، يجب أن يتحدثوا عن الحجم والأهمية الفعلية للتأثير. هذا يخبرنا أكثر من ما تفعله الـ p value. يعتقد بعض الإحصائيين أنه يجب أن نستبدل الـ p value بطريقة من القرن السابع عشر، تدعى قاعدة بايز، التي تفكر في الاحتمال بناءً على مدى احتمالية النتيجة. تتيح هذه الطريقة للأشخاص استخدام ما يعرفونه عن العالم لفهم نتائجهم وتحديث حسابهم للاحتمالات كلما تم العثور على دليل جديد. ينتهي الورقة بطلب من القراء أن يدركوا أن طرقهم الإحصائية لها حدود. لا يمكن أن تجيب طريقة واحدة عن جميع الأسئلة المهمة التي يحاولون العثور على إجابات لها. '
--------- Original ---------
'تُعتبر قيم الـ P غالبًا المعيار الذهبي في البحوث العلمية لتأكيد ما إذا كانت النتيجة ذات معنى أو ذات أهمية. لكنها ليست موثوقة كما يعتقد العديد من العلماء وفقًا لهذه الورقة التي كتبتها Regina Nuzzo. على سبيل المثال، في عام 2010 ، كان Matt Motyl ، طالب دكتوراه في علم النفس ، يعتقد أنه اكتشف شيئًا كبيرًا. كان يعتقد أنه اكتشف أن الأشخاص ذوي الآراء السياسية المتطرفة يرون العالم حرفيًا بالأبيض والأسود ، بينما يرون أولئك ذوي الآراء السياسية المعتدلة المزيد من درجات الرمادي. بدا أن بياناته ، استنادًا إلى دراسة تضمنت ما يقرب من 2000 شخص ، تدعم هذه الفكرة وكانت قيمة الـ P (0.01) تشير إلى دليل قوي على مزاعمه. ولكن عندما حاول هو ومشرفه ، Brian Nosek ، إعادة إنتاج نفس النتائج مع بيانات جديدة ، ارتفعت قيمة الـ P إلى 0.59 ، مما يعني أن النتيجة لم تكن مهمة. هذا يعني أن النتائج التي حصل عليها Motyl لم تتمكن من التكرار. المشكلة لم تكن في بيانات Motyl أو طريقته في تحليلها. بل كانت القيمة الـ P نفسها هي القضية. قيم الـ P ليست موثوقة أو غير متحيزة كما يعتقد معظم العلماء. اقترح بعض الإحصائيين حتى أن معظم النتائج المنشورة استنادًا إلى قيم الـ P قد تكون غير دقيقة. تدور مخاوف أخرى كبيرة حول ما إذا كان يمكن للعلماء الآخرين العثور على نتائج مماثلة إذا كرروا نفس التجربة. إذا لم يتمكن العلماء من تكرار النتائج ، فإن ذلك يتحدى صحتها. هذا دفع العديد من العلماء إلى إعادة التفكير في كيفية تقييم نتائجهم ، والإحصائيين إلى البحث عن طرق أفضل لتفسير البيانات. تم استخدام قيم الـ P كمقياس للصحة في البحوث العلمية لما يقرب من 90 عامًا ، لكنها في الواقع ليست موثوقة كما يعتقد العديد من الباحثين. في العشرينات ، اخترع إحصائي بريطاني يدعى Ronald Fisher قيمة الـ P. لم يكن ينوي أن تكون قيم الـ P هي الكلمة الأخيرة في أهمية النتيجة ، بل كانت طريقة سريعة لمعرفة ما إذا كانت النتيجة تستحق البحث المزيد. وإليك الإجراء المتبع للقيام بتحليل قيمة الـ P: تبدأ بصنع "فرضية صفرية" ، التي تتوقع عدم وجود تأثير أو عدم وجود علاقة بين مجموعتين. بعد ذلك ، يمكنك أن تلعب دور الشيطان الداعية ، فتفترض أن هذه الفرضية الصفرية صحيحة وتحسب فرص الحصول على نتائج مماثلة أو أكثر قوة مما قست. هذه الفرصة هي قيمة الـ P. إذا كانت صغيرة ، اقترح Fisher أن هذا ربما يعني أن فرضيتك الصفرية كانت خاطئة. وصف خصوم Fisher طريقته بأنها "أسوأ من العديم". خلق عالم الرياضيات Jerzy Neyman والإحصائي Egon Pearson طريقتهم الخاصة في تحليل البيانات ، حيث استبعدوا قيمة الـ P. ولكن بينما كان هؤلاء الخصوم يتجادلون ، تعب الآخرون من الانتظار وكتبوا دلائل على الإحصاء للعلماء الذين يعملون في مجال الإحصاء. لم يفهم هؤلاء الكتاب كلا النهجين بشكل كامل ، لذا أنشأوا خليطًا من كلاهما. أُضيفت قيمة الـ P السهلة الحساب لـ Fisher إلى الإجراء الصارم لـ Neyman و Pearson. هنا عندما أصبحت قيمة الـ P 0.05 مقبولة كـ "معنوية إحصائياً". أدى كل هذا إلى الكثير من الارتباك حول ما تعنيه حقًا قيمة الـ P. على سبيل المثال ، إذا حصلت على قيمة P تساوي 0.01 في تجربة ، فإن معظم الناس يعتقدون أن هذا يعني أن هناك فرصة 1 ٪ فقط أن يكون النتيجة خاطئة. ولكن هذا غير صحيح. قيمة الـ P يمكن أن تلخص البيانات فقط استنادًا إلى فرضية صفرية محددة. لا يمكنها التعمق أكثر وإصدار تصريحات حول الواقع الفعلي. للقيام بذلك ، تحتاج إلى معلومات أخرى: الاحتمالات التي كان يجب أن تكون هناك تأثير حقيقي من البداية. وإلا ، ستكون مثل شخص يشعر بصداع ويعتقد أنه يجب أن يعني أن لديه ورمًا دماغيًا نادرًا ، حتى عندما يكون من المحتمل أن يكون الأمر شيئًا شائعًا مثل الحساسية. كلما كانت الفرضية أقل احتمالًا ، كانت فرصة الإيجاد المثيرة للاهتمام مجرد إنذار كاذب ، بغض النظر عن قيمة الـ P. وفقًا لقاعدة "قاعدة الإبهام" ، إذا كانت قيمة الـ P الخاصة بك 0.01 ، فإن هناك فرصة لا تقل عن 11٪ لوجود إنذار كاذب ، وإذا كانت قيمة الـ P الخاصة بك فقط 0.05 ، فإن فرصة الإنذار الكاذب ترتفع إلى 29٪. لذا ، عندما أجرى Motyl بحثه ، كان هناك أكثر من فرصة واحدة في 10 أن لا يتكرر نتائجه. وكانت الفرصة فقط 50٪ للحصول على نتيجة قوية مثل تلك في تجربته الأصلية. مشكلة أخرى مع قيم الـ P هي كيف يمكن أن تجعلنا نركز كثيرًا على ما إذا كان هناك تأثير يوجد ، بدلاً من مدى كبر الأثر. في الآونة الأخيرة ، كان هناك دراسة لـ 19,000 شخص وجدت أن الأشخاص الذين التقوا بزوجاتهم عبر الإنترنت أقل عرضة للطلاق وأكثر عرضة للسعادة في زواجهم من أولئك الذين التقوا حضوريًا. قد يبدو هذا أمرًا كبيرًا ، ولكن الأثر كان في الواقع صغيرًا جدًا: التقاء عبر الإنترنت أدى إلى انخفاض معدل الطلاق من 7.67٪ إلى 5.96٪ ، وزادت السعادة فقط من 5.48''3: مشكلة الاعتماد الزائد على قيم الـP - اليوم 1: تعرف على مفهوم الـP-hacking وكيف يمكن أن يلوث البحث العلمي - اليوم 2: استكشف بعض الأمثلة الشهيرة على P-hacking - اليوم 3: فهم كيف يمكن استخدام تقنيات البحث الأخرى للحد من خطر P-hacking - اليوم 4: مناقشة الانتقادات الموجهة لاستخدام قيم الـP كأداة لإثبات الصحة الإحصائية - اليوم 5: مراجعة الأسبوعية والتقييم
الأسبوع 4: البديل لقيم الـP - اليوم 1: استكشاف طرق بديلة لقيم الـP مثل قاعدة بيز - اليوم 2: فهم كيف يمكن استخدام قاعدة بيز لتقدير الاحتمال - اليوم 3: مناقشة الفوائد والعيوب المرتبطة بقاعدة بيز مقارنة بقيم الـP - اليوم 4: دراسة الحالات العملية التي يمكن أن تستفيد من استخدام قاعدة بيز بدلاً من قيم الـP - اليوم 5: مراجعة الأسبوعية والتقييم
الأسبوع 5: التقييم والمراجعة - اليوم 1: مراجعة كل الدروس والنقاط الرئيسية المتعلمة حول قيم الـP، وجدواها، وانتقاداتها - اليوم 2: تقييم الدروس من خلال اختبار فهم الطفل من خلال الأسئلة والتمارين العملية - اليوم 3: مناقشة الردود وتقديم الملاحظات حسب أداءهم - الأيام 4 و5: مراجعة نهائية واختبار الأداء.
المنهج التعليمي في المنزل: فهم الأهمية الإحصائية الأسبوع 1: مقدمة في قيم الـP واختبار الفرضية - اليوم 1: تعرف على رونالد فيشر وتقديمه للقيمة الـP في العشرينيات - اليوم 2: مناقشة غرض قيم الـP ودورها في التحليل التجريبي - ليس كاختبار حاسم، ولكن كمقياس غير رسمي للأهمية - اليوم 3: فهم مفهوم 'فرضية الصفر' وشرح عمليتها - اليوم 4: مراجعة كيفية تفسير قيم الـP - اليوم 5: مراجعة الأسبوعية والتقييم
الأسبوع 2: التنافس حول استخدام قيم الـP - اليوم 1: دراسة أعمال الرياضياتي البولندي جيرزي نيمان والإحصائي البريطاني إيجون بيرسون - اليوم 2: تحليل الاختلافات بين موقف فيشر تجاه قيم الـP والإطار البديل لنيمان وبيرسون - اليوم 3: مناقشة كيف تم تكامل قيم الـP في النظام الدقيق والقائم على القواعد لـ نيمان وبيرسون - اليوم 4: فهم مصطلح 'معنوية إحصائية' وعلاقتها بقيم الـP - اليوم 5: مراجعة الأسبوعية والتقييم''النقاط الثالثة: الجدل حول تفسير قيمة P - اليوم الأول: فهم الالتباس حول معاني قيمة P - اليوم الثاني: مناقشة الأفكار الخاطئة الشائعة حول قيمة P باستخدام مثال دراسة موتيل حول المتطرفين السياسيين - اليوم الثالث: تعلم لماذا قيمة P بمفردها لا يمكنها تقديم أي تصريحات عن الواقع الكامن ولماذا تتطلب معلومات إضافية - اليوم الرابع: مناقشة كيفية تفسير النتائج الصحيحة من قيم P - اليوم الخامس: مراجعة وتقييم أسبوعي الأسبوع الرابع: الختام والتقييم - اليوم الأول: مراجعة تاريخ وتطور قيمة P - اليوم الثاني: اختبار المعرفة في تفسير قيم P ودورها في التحليل التجريبي - اليوم الثالث: مناقشة المشكلات المتعلقة بسوء استخدام قيم P والحلول الممكنة - اليوم الرابع: مراجعة نهائية لجميع الموضوعات المغطاة - اليوم الخامس: التقييم النهائي المواد للدورة التدريبية: الوصول إلى المقالات الأكاديمية التي تتناول أعمال فشر، نيمان، وبيرسون. أمثلة على الدراسات العلمية التي تستخدم قيمة P للتحليل. تمارين لحساب وتفسير قيم P. ملاحظة: نشجع المتعلمين على الاستفسار وتحليل والتفكير النقدي حول المعلومات المقدمة. هذا المنهج الدراسي يهدف إلى تطوير القدرة على التفكير النقدي والمهارات التحليلية بالإضافة إلى المعرفة حول الدلالة الإحصائية. عنوان الدورة التدريبية: "فهم التحديات في البحث غير القابل للتكرار" وصف الدورة: تهدف هذه الدورة التعليمية المنزلية إلى تثقيف الآباء والأطفال حول القضايا المحيطة بالبحث الذي لا يمكن تكراره، بتركيز على التفسير الخاطئ وسوء استخدام قيم P، وكيفية تأثير التحيزات على النتائج العلمية. المستوى: متقدم (ثانوية) المدة: 6 أسابيع مخطط الدورة: الأسبوع الأول: مقدمة عن الإحصاء والإمكانية المتكررة في البحث الدرس الأول: فهم المفاهيم الإحصائية الأساسية الدرس الثاني: أهمية البحث القابل للتكرار النشاط: المناقشة حول تأثيرات البحث الغير قابل للتكرار الأسبوع الثاني: فهم قيم P الدرس الأول: ما هو قيمة P؟ الدرس الثاني: احتمالية الإنذارات الكاذبة النشاط: تمارين الحساب لفهم قيم P الأسبوع الثالث: نقد استخدام قيم P الدرس الأول: كيف تشجع قيم P على التفكير الغامض الدرس الثاني: استكشاف حجم التأثير الفعلي مقابل قيم P النشاط: تحليل دراسة الحالة - "تأثير لقاء الزوج عبر الإنترنت على معدل الطلاق" الأسبوع الرابع: اليقين الساحر للأهمية الدرس الأول: فهم اليقين الساحر للأهمية الدرس الثاني: تحديد الأهمية العملية مقابل الأهمية الإحصائية النشاط: المناقشة حول تأثير الإحصاءات المفسرة بشكل خاطئ الأسبوع الخامس: تهديد قيم P الدرس الأول: مقدمة حول قيم P الدرس الثاني: فهم مفهوم التجريف البيانات ومطاردة الأهمية والانغماس المزدوج النشاط: تحليل أمثلة على قيم P الأسبوع السادس: سوء استخدام وسوء فهم قيم P في البحث الدرس الأول: استكشاف السياق التاريخي لاستخدام قيمة P الدرس الثاني: تقييم أفضل الممارسات في تحليل البيانات النشاط: مراجعة ومناقشة بعض الدراسات البحثية المعروفة التي تم فيها سوء استخدام قيم P المواد المطلوبة: - الة حاسبة الإحصاء - الوصول إلى قواعد بيانات على الإنترنت والمراجع لتحليل دراسة الحالة. الشرط الموصى به: - فهم أساسي للاحتمالات والإحصاءات. العنوان: منهج الوعي الإحصائي للوالدين المنزليين الهدف: تجهيز الآباء بالمعرفة والأدوات لتسهيل فهم أطفالهم للإحصاء في عالم مليء بالبحوث. المواضيع: 1. مقدمة في أهمية الإحصاء - فهم الأسباب التي تؤدي إلى أخطاء في البيانات و 'القرصنة' - دور الإحصاء في بحوث العلوم النفسية 2. بارادوكس قيم P - فهم قيم P وانتشارها في البحوث - مناقشة كيف تؤثر قيم P على البحوث ولماذا يمكن أن تكون مشكلة 3. تاريخ الإحصاء في البحوث - النظر في تأثير فشر و نيمان وبيرسون - فك حزم أفكار جون كامبل حول قيم P 4. تغيير وجهات النظر في الإحصاء - دراسة تطور الممارسات الإحصائية على مر الزمن - مناقشة عودة قيم P على الرغم من النقد 5. فهم الإحصاء في العالم الحديث - كيفية فهم وتفسير قيم P في أمثلة بحثية من الحياة الواقعية - تحليل الانتقادات الموجهة للإطار الإحصائي الحالي 6. الدعوات لإصلاح الإحصاء - استكشاف التغييرات المطلوبة في التعليم الإحصائي والتحليل والتفسير - مناقشة تأثيرات النتائج الخاطئة 7. الحلول المقترحة لمشكلات الإحصاء - مناقشة أهمية التبليغ عن حجم التأثير والفواصل الزمنية - قاعدة بيز: الفهم والتطبيق 8. دمج طرق متعددة - أهمية استخدام طرق تحليل متعددة على نفس البيانات - أمثلة عملية للتوضيح أهمية التنوع في طرق الإحصاء الطرق: سيتم تقديم كل موضوع على مدى أسبوع، مما يتيح للمتعلمين فهم الأفكار بشكل كامل. سيقدم الآباء المفاهيم باستخدام أوراق عمل بسيطة وأنشطة تفاعلية. سيتضمن الأدوات التعليمية أمثلة من الحياة الواقعية متى أمكن ذلك لتقديم سياق. يشجع الأطفال على تطبيق الدروس التي تعلموها على الحالات اليومية. التقييم: سيقيم الآباء فهم طفلهم من خلال اختبارات وامتحانات نهاية الأسبوع. سيقومون أيضا بإجراء مناقشات مع أطفالهم لقياس فهمهم. منهج مكتوب: علوم! الأسبوع 1-2: مقدمة عن العلوم الجلسة 1: فهم أهمية العلوم النشاط: مناقشة العبارة "احصل على أهم قصص العلوم لليوم، مجانًا في صندوق بريدك." كيف يكون ذلك ذا صلة بحياتنا؟'' الجلسة 2: استكشاف الفروع المختلفة من العلوم النشاط: استكشف موقع 'Nature Briefing' (https://www.nature.com/briefing/signup/?brieferEntryPoint=MainBriefingBanner) ، اقرأ مقالات مختلفة يوميًا لمدة أسبوع ، واكتب الملاحظات عن الاكتشافات المثيرة للاهتمام. الجلسة 3: مشاركة الاكتشافات النشاط: اختر قصة علمية ساحرتك وشاركها مع العائلة مع التفسير لماذا أثرت فيك. الأسبوع 3-4: العلم المرئي: فهم SVG (Scalable Vector Graphics) الجلسة 1: ما هو SVG؟ النشاط: البحث عبر الإنترنت والعرض التقديمي حول "ما هو SVG وما هي تطبيقاته في العلوم؟" الجلسة 2: تفسير بيانات SVG النشاط: تفسير بيانات SVG المقدمة لصورة مثال. ملاحظة: استخدم بيانات المسار SVG المعطاة في المهمة للتفسير. الجلسة 3: العلم في الرسومات المرئية النشاط: إنشاء رسم بياني SVG أساسي يمثل مفهوم علمي. الأسبوع 5-6: من القراءة إلى الكتابة - إنشاء محتوى علمي خاص بك الجلسة 1: فهم كيفية كتابة قصص العلوم النشاط: الانتباه إلى أنماط الكتابة في مقالات 'Nature Briefing'. لاحظ الهيكل، النغمة، والمحتوى. الجلسة 2: إنشاء قصة علمية خاصة بك التمرين: استنادًا إلى قراءاتك، قم بإنشاء قصة / مقال علمي صغير خاص بك. استخدم SVG إذا كان ممكنا. الجلسة 3: Peer Review النشاط: تبادل المقالات مع زملائك في الدورة / العائلة، اقرأ أعمالهم وقدم ردود فعل بناءة. يرجى تذكر، هذا هو رحلتك في التعليم المنزلي. لا تتردد في التكيف والتعديل حسب الحاجة. ركز دائما على التعلم والاستكشاف. استمتع! '