متطلبات أي متنبئ صناعي: الصلاحية والموثوقية

الشرطان الأساسيان لأي متنبئ هما الصلاحية والموثوقية. في الإطار الصناعي توجد أنواع أو أنواع مختلفة من الصلاحية ، على الرغم من أن النوع الأكثر تفضيلاً يسمى الصلاحية التنبؤية. هناك أيضا أنواع مختلفة من تدابير الموثوقية. لا يقتصر الاهتمام بالموثوقية والصلاحية على المتنبئين ولكنه ينطبق أيضًا على المعايير.

صلاحية:

يمكن تعريف صحة المتنبئ بشكل عام على المدى الذي يحقق فيه المتنبئ أهدافًا معينة للمستخدم عن طريق قياس ما يُفترض قياسه. ويعتمد نوع الصلاحية المعتمد على الهدف الخاص للمستخدم في أي موقف.

صحة التنبؤية:

الهدف من المستخدم هو استخدام أداة القياس الخاصة به للتنبؤ بالأداء المستقبلي للموظفين على بعض المتغيرات الأخرى (المعيار). يتم تأسيس صحة التنبؤ من الناحية الإحصائية من خلال الارتباط والانحدار. التمييز المهم للصحة التنبؤية هو واحد من وقت الذكاء. يتم الحصول على درجات التوقع على الأفراد في وقت معين (على سبيل المثال ، وقت الاستئجار) ويتم الحصول على درجات المعيار في تاريخ لاحق (على سبيل المثال ، في نهاية ستة أشهر).

وبالتالي ، فإن العلاقة الناتجة تمثل بالفعل القوة "التنبؤية" للأداة. تعتبر صلاحية التنبؤ هي أهم أنواع الصلاحية في الاختيار لأنها النوع الوحيد الذي يكرر حقاً وضع الاختيار. الاسم الآخر الذي يستخدم أحيانًا للصحة التنبؤية هو صلاحية المتابعة.

صالحة لمرات عديدة:

يجب أن يكون الهدف هنا ، من الناحية النظرية على الأقل ، هو تقدير الأداء الحالي للموظفين على بعض معايير المعيار من الدرجات على المؤشر. كما يتم إنشاء صلاحية متزامنة باستخدام أساليب الارتباط والانحدار ، ولكن مع عدم وجود فارق زمني بين الحصول على علامات التنبؤ والمعيار. يتم استخدام عينة من الموظفين الحاليين للتحقق من علاقة معيار التنبؤ ، ومن ثم يمكن تطبيق الانحدار الناتج عن طريق الحصول على درجات توقع على أصحاب الوظائف المتبقية.

بعبارة أخرى ، نحن مهتمون بالتنبؤ بالحالة الراهنة للناس ، وليس لوضعهم في وقت ما في المستقبل. من المهم للغاية الإشارة إلى أن الصلاحية العالية المتزامنة لا تضمن صحة تنبؤية عالية. للأسف ، غالباً ما يتم استخدام الصلاحية المتزامنة في الصناعة كبديل للصحة التنبؤية.

في بعض الأحيان ، تكون الإدارة غير راغبة في انتظار الوقت الذي تتطلبه الطريقة التنبؤية ، وقد لا تدرك أن الموظفين الحاليين يمكنهم تمثيل مجموعة مختلفة من العمال من المتقدمين للوظائف. وقد نجا العمال الذين يعملون في الوقت الحالي من الفحص في كل من التوظيف والاستمرارية ، وقد يكون العمال الأشد فقرا الذين تم تعيينهم قد غادروا إما طواعية أو طلبا. هذا يجعل من الصعب للغاية تبرير تعميم الصلاحيات المتزامنة إلى وضع الصلاحية التنبئي.

صلاحية المحتوى:

عندما يفترض المدقق أن مؤشّره يمثل فئة معينة من الحالات ، فهو مشترك في صلاحية المحتوى. لديه فكرة محددة عن نوع المعرفة ، والمهارة ، والموقف ، أو الأداء الذي يجب استغلاله بواسطة أداة القياس ، ويعتبر أن الصك صالحًا لدرجة أن محتواه يمثل ما يريد النقر عليه. صلاحية المحتوى غير قابلة للقياس بشكل عام في أي إحساس إحصائي أو كمّي.

يجد المرء أكبر استخدام لصحة المحتوى بين مستخدمي اختبارات التحصيل ، مثل الاختبارات النهائية في دورة الكلية. لا يمكن اعتبار امتحان نهائي أن يكون له صلاحية المحتوى إذا كان يمثل بشكل كافٍ (عينة) ، من حيث عناصره ، محتوى الدورة التدريبية. إذا لم تمثل تغطية لمواد الدورة التدريبية ، فمن المؤكد أنه لا يمكن اعتبارها اختبارًا مناسبًا للاستخدام في الاختبار النهائي - أي أنه لن يكون له صلاحية المحتوى.

بناء صلاحية:

مع هذا النوع من الصلاحية يود المستخدم أن يستنتج درجة امتلاك الأشخاص الذين يتم تقييمهم في بعض السمات أو الجودة (التركيب) التي يفترض أن تنعكس في أداء الاختبار. يشمل الإجراء العام إدارة العديد من أدوات الاختبار التي تبدو منطقية لقياس البناء نفسه ، ثم مراقبة العلاقات بين هذه التدابير. لم تستخدم صدق بناء إلى درجة كبيرة من قبل علم النفس الصناعي ؛ يميل إلى أن يستخدم في كثير من الأحيان في الحالات النظرية بدلا من البراغماتية.

الصلاحية الاصطناعية:

قد يعتبر المرء أن الصلاحية الاصطناعية هي الصلاحية التنبؤية "المفترضة". لنفترض أن لدينا اختبارًا أظهر في العديد من الحالات علاقة تنبؤية عالية بمختلف معايير الأداء الخاصة بجمعية المراقبين. لنفترض كذلك أن مصنعًا صغيرًا يريد استخدام اختبار في اختيار العمال ، ولكن القليل جدًا من العاملين في المصنع يجرون حتى دراسة صلاحية متزامنة. قد يقرر هذا المصنع استخدام الاختبار دون إجراء أي تقييم إحصائي رسمي على افتراض أنه تم إثبات نجاحه في مصانع أخرى أكبر.

لا يمكن اعتبار هذا الإجراء صالحًا إلا إذا:

(1) وظيفة رئيس الوزراء في هذا المصنع مشابهة لوظائف الموظفين المشاركين في التقييم الإحصائي للاختبار ، و

(2) مراقبو العمال في هذا المصنع هم نموذجية (من نفس السكان) مثل المتقدمين للوظائف المرافقة في النباتات الكبيرة. يجب الاستعاضة عن الصلاحية الاصطناعية فقط بالصلاحية التنبؤية بالوعي الكامل بحدودها المحتملة.

صلاحية الوجه:

نوع آخر من الصدق الذي يستخدم عادة لوصف الاختبار يتضمن الدرجة التي يهتم بها المستخدم في جعل اختباره "يبدو صحيحًا" لمقدم الاختبار. غالبًا ما يصاب المتقدمون بالوظائف بالانزعاج إذا بدا أن أدوات التنبؤ التي يطلب منهم اتخاذها قليلة أو لا علاقة لها بالوظيفة التي يتقدمون بها. على سبيل المثال ، إذا كان الشخص يختار أشخاصًا لموقف ميكانيكي ويتم استخدام اختبار للقدرة الحسابية كمتنبئ ، فيجب أن تتعامل عناصر الاختبار مع الأرقام المطبقة على المشكلات الميكانيكية بدلاً من أن تكون مصاغة بعبارات أكثر عمومية مثل شراء التفاح أو البرتقال.

إذا فشل مقدم الطلب في رؤية مدى ملاءمة المتنبئ للوظيفة التي يتقدم بها ، كما يحدث غالباً في اختبارات الشخصية ، فقد يتعرض لخسارة كبيرة في الحافز في وضع الاختبار ، أو يصبح سائداً ، أو ، من ناحية أخرى ، يشعر بعدم الأمان. هذا لا يضر فقط برنامج الاختيار ولكن أيضا قد يضر صورة الشركة ويلحق الضرر بصور الاختبارات في أي بيئة صناعية. قد يخاطر المؤلفون بتخمين أن بعض الدعاية السيئة التي يتلقاها مستخدمو أجهزة التحديد في الصناعة يمكن أن تكون بسبب أن المستخدم يتغاضى عن ضرورة أن تكون اختباراته ذات صلاحية.

حيازة العمر ، والخبرة الوظيفية وأثرها على الصدق:

وكثيرا ما يظهر فحص أداء العمال في أي وظيفة معينة وجود علاقة محددة بين المتغيرات مثل العمر والخبرة والمعيار. كلما كانت الوظيفة أكثر تعقيدًا ، كلما ازدادت هذه الأنواع من العلاقات. بالنسبة للعديد من الوظائف ، يلزم وجود قدر كبير من الخبرة قبل أن يصبح الموظفون بارعين في عملهم. يمثل الارتباط بين هذه الأنواع من المتغيرات ومعايير نجاح الوظيفة مشكلة خطيرة في الاختيار. الحذر ضروري ، لا سيما إذا كان أحد يستخدم إجراء صلاحية المتزامنة كوسيلة لإنشاء فائدة أي جهاز التنبؤ.

إذا كان هناك ، على سبيل المثال ، علاقة ارتباط عالية بين المعيار وطول الوقت في الوظيفة ، فكيف ينبغي تفسير معامل صحة مرتفع متزامن؟ هﻞ ﻳﻌﻨﻲ ذﻟﻚ أن اﻟﻤﺆﺷﺮ ﻳﻌﻜﺲ ﺣﻘﻴﻘﺔ اﺧﺘﻼﻓﺎت اﻟﻘﺪرة ﺑﻴﻦ اﻟﻌﻤﺎل آﻤﺎ ﻳﻘﺎس ﺑﻮاﺳﻄﺔ "اﻟﻤﻌﻴﺎر ، أم أن اﺧﺘﻼﻓﺎت اﻟﻌﻤﺎل ﺗﻌﻮد أﺳﺎﺳﺎ إﻟﻰ اﻟﺨﺒﺮة ﻓﻲ اﻟﻌﻤﻞ؟" إذا كان هذا هو الأخير ، فإن كل المتنبئ سيتحقق هو التفريق بين هؤلاء العمال الذين يمتلكون مدة طويلة من أولئك الذين تم تعيينهم في الآونة الأخيرة.

تعتبر صلاحية الملاحظة بشكل عام مبالغة في تقدير الكفاءة التنبؤية لأداة الاختيار. في الواقع ، ما لم يكن بوسع المرء أن يثبت بوضوح أن المتنبئ لا يرتبط بسمات مثل العمر والحيازة التي قد تكون هي نفسها من محددات الأداء الوظيفي ، فإن جميع الصلاحيات المتزامنة التي يتم الحصول عليها مع ذلك المتنبأ يجب أن تكون مشبوهة للغاية.

لتوضيح هذه النقطة ، ضع في اعتبارك الحالة التي يكون فيها أحدهم معيارًا ، ومتنبئًا ، ومتغيرًا مرتبطًا بالمعيار ، مثل حيازة الوظائف المسؤولة إلى حد كبير عن الاختلافات في المهارة التي يظهرها المعيار من قبل الموظفين ، على النحو التالي:

C + D = صلاحية الملاحظة المتزامنة للمؤشر

D = مقدار التباين المعياري "بدون حيازة" الذي يفسره المتنبئ

C = مقدار التباين المعياري "يحدده الحيازة" الذي يفسره المتنبئ

صلاحيتها الموضحة عموما ليست دائما المبالغة في تقدير الصلاحية الحقيقية ، حيث:

إن المعادلة الحقيقية أو غير المتزامنة المتزامنة ، والتي تمثل العلاقة بين المتنبئ والمعيار الذي يكون خاليًا تمامًا من تأثير حيازة الوظيفة ، يتم التعبير عنها بواسطة المعادلة —

إن الارتباط (r true ) كما هو موضح في الرسم البياني يمثل في الواقع ، في الصورة ، ما هو معروف في الإحصاء على أنه معامل ارتباط "جزئي". ويبلغ عن العلاقة بين المتنبئ والمعيار بعد إزالة آثار حيازة الوظائف من كل من علامات التنبؤ وعشرات المعايير الخاصة بالموظفين الحاليين. من المهم إزالة آثار الحيازة من كل من المعيار والتنبؤ في الوضع المتزامن.

إذا لم يتم إزالة هذه التأثيرات إحصائيًا من المعيار ، فسوف ينتهي بنا الأمر إلى توقع تأثير الحيازة بدلاً من الأداء الوظيفي ، مع عدم وجود صلة تذكر بالصحة التنبؤية. إذا لم يتم إزالة تأثيرات حيازة الوظيفة من المتنبئ ، فقد نحصل أيضًا على معامل صلاحية لا يمكن اعتباره مناسبًا لأي حالة صلاحية تنبؤية حقاً.

ومن المؤكد أن مشكلات المعيار والمتغيرات المرتبطة بالتنبؤ في السياق المتزامن توضح بعض القيود الخطيرة التي تنطوي عليها طريقة التحقق هذه. يمكن القول بأمان أنه لا يوجد على الإطلاق بديل متساوٍ لنوع الصلاحية المعروف باسم الصلاحية التنبؤية عند إنشاء واستخدام أداة اختيار.

الموثوقية:

بشكل عام ، يتعامل مفهوم الصلاحية مع ما يتم قياسه بواسطة جهاز قياس. هناك خاصية ثانية ، وربما لا تقل أهمية ، عن المتنبئين ، وهي الحاجة إلى معرفة اتساق التدبير ، بصرف النظر عما يتم قياسه. ذكرنا بطريقة أخرى ، نحتاج إلى تحديد درجة ثبات أي جهاز قياس ؛ يجب أن يكون القياس المتحصل عليه من متنبئ متسقًا. الدرجة التي تكون بها أي أداة قياس ثابتة أو ثابتة وتنتج نفس النتائج مرارًا وتكرارًا إذا لزم الأمر يتم تعريفها على أنها موثوقية أداة الاختبار تلك.

مثل المصداقية ، يقاس عادة الموثوقية عن طريق معامل الارتباط. بما أن القياس الموثوق يعنى الاستقرار من حالة إلى أخرى ، فإن الصك الموثوق به يجب أن ينتج إما نفس الدرجات أو على الأقل نفس الترتيب للأفراد في حالتين. من خلال حساب الارتباط ، نحصل على تعبير رياضي لمدى حدوث ذلك.

وبالتالي ، فإن أداة القياس الموثوق بها هي التي يحصل الأفراد على نفس النتيجة (أو ما يقاربها) في القياسات المتكررة. عند استخدام معامل الارتباط لقياس تشابه الدرجات لمجموعة من الأشخاص على تطبيقين من نفس المقياس ، يطلق عليه معامل الموثوقية.

تعتمد العملية الفعلية التي يمكن من خلالها تقييم موثوقية المقياس على العديد من العوامل. هناك ثلاثة "أنواع" بديلة من الموثوقية ، لكل منها مميزاته وعيوبه المنفصلة. فهي مختلفة بما فيه الكفاية في منطقها الأساسي لتبرير فحص كل منها بشيء من التفصيل.

التقنيات الثلاثة للحصول على موثوقية الجهاز هي:

(1) التدابير المتكررة على نفس الأشخاص الذين لديهم نفس الاختبار أو الصك ،

(2) القياس على نفس الأشخاص مع شكلين "مكافئين" لأداة القياس ، و

(3) فصل جهاز القياس إلى جزأين أو أكثر من الأجزاء المكافئة والارتباط بين هذه الدرجات "الجزء".

قبل النظر في كل طريقة ، يجب أن نفحص بطريقة أكثر تحديدًا أنواعًا معينة من الموثوقية أو الثبات في القياس التي قد نتخيلها في ظروف مختلفة.

دعونا نفترض أنه في أي وقت نستخدم فيه أداة قياس للحصول على درجة الشخص ، فإن النتيجة المستلمة هي دالة لعدة عوامل ، على النحو التالي:

X i = X true + X error

أين

X i = درجة الملاحظة لكل شخص على الاختبار

X true = True Score for person i on test - this is the actual amount of quality measured by the test that person i really possesses.

خطأ X = درجة الخطأ للشخص i في الاختبار - هذا هو المقدار الذي يتأثر به هذا الشخص من خلال تشغيل عوامل الحظ أو الوقت المختلفة.

إذا كانت جميع أدوات القياس وطرق القياس "خالية من الأخطاء" ، فعندئذ سنحصل دائمًا على الدرجات الحقيقية من الأشخاص ، وسيكون الارتباط بين قياسين على نفس المجموعة من الأشخاص دائمًا + 1.00 أو موثوقية كاملة (بافتراض عدم حدوث أي تغير في يجب أن نتوقع الدرجات الحقيقية). لسوء الحظ ، هذا القياس الخالي من الأخطاء ليس متاحًا تمامًا أبدًا ، نظرًا لأن هناك تشكيلة واسعة من الأشياء؟ ساهم في الأداء في أي لحظة محددة من الوقت.

وبالتالي ، قد يكون x i أكبر من أو أقل من X صحيح لأي قياس معين ، وتكون الارتباطات المحسوبة بين القياسات دائمًا أقل من الوحدة. من حيث تمثيلنا التصويري لتفاوت الأداء بين الأشخاص على أي جهاز قياس ، سواء كان اختبارًا أو مقابلة ، أو متنبئًا أو معيارًا ، يمكن تقسيم هذا التباين الكلي إلى مكونين رئيسيين لتفاوت التباين والاختطار الحقيقي.

حيث التباين الكلي = التباين الكلي لدرجات الاختبار الملاحظ

التباين الحقيقي = تقلبات الناس من حيث كميتها الحقيقية للخاصية المقاسة

اختلاف الخطأ = تقلب نتائج أخطاء الأشخاص

يمكن تعريف الموثوقية كنسبة من التباين الحقيقي إلى التباين الكلي ، أو

كلما كبرت نسبة تباين الدرجة الحقيقية ، أو بالعكس ، كلما قلت كمية تباين الأخطاء في عملية القياس ، كلما زادت موثوقية القياس. والعامل الحاسم الذي يفرق بين الإجراءات الرئيسية الثلاثة لتحديد الاعتمادية هو في طور تحديد ما يعتبر اختلافاً في الأخطاء وما يعتبر تبايناً حقيقياً أو منهجياً. لا توجد اعتمادية واحدة لأي اختبار. بدلا من ذلك ، تعتمد الموثوقية على احتياجات اللحظة.

على سبيل المثال ، قد يسأل الطبيب النفسي أيًا من الأنواع التالية من الأسئلة حول عملية القياس:

1. ما مدى دقة قياس الأشخاص الذين يخضعون لهذا الاختبار في أي وقت من الأوقات؟

2. ما مدى دقة الإجراءات المتخذة في هذا الاختبار اليوم لتمثل هؤلاء الأشخاص أنفسهم في وقت ما في المستقبل؟

3. ما مدى دقة النتائج في هذا الاختبار تمثل القدرة الحقيقية لهؤلاء الأشخاص على السمات التي يتم اختبارها من خلال الاختبار؟

هذه الثلاثة هي أسئلة الموثوقية المشروعة. ومع ذلك ، فإن كل تركيز مختلف إلى حد ما على مختلف مصادر اختلاف الخطأ في درجات الاختبار.

تم التعبير عن مصادر الاختلاف هذه بواسطة Thorndike و Hagen (1963) على النحو التالي:

1. الاختلاف بسبب الاختبار في لحظة معينة من الزمن

2. التباين في الفرد من الفترة الزمنية إلى الفترة الزمنية

3. التباين بسبب عينة معينة من المهام المختارة لتمثيل الجودة التي يتم قياسها

دعونا الآن نواصل فحص كل طريقة موثوقية ، مع الأخذ في الاعتبار مصادر الخطأ حتى نتمكن من تحديد كيفية معاملة كل طريقة لكل مصدر.

طريقة اختبار إعادة الاختبار:

تتمثل إحدى الطرق الواضحة لتقييم الاستقرار في قياس أداء الفرد نفسه مرتين بنفس أداة القياس. يتضمن هذا النوع من الموثوقية مصادر التغيير 1 و 2 كخطأ. وبالتالي فإن الموثوقية الناتجة هي التي تقيس ثبات النتيجة الحقيقية بمرور الوقت. هناك العديد من المشاكل في طريقة اختبار إعادة الاختبار التي يتم إنشاؤها عن طريق قياس الأفراد في الاختبار نفسه مرتين.

على سبيل المثال ، ما لم تكن الفترة الزمنية طويلة إلى حد ما بين الإدارات ، فمن المحتمل أن يكون متغير عامل الذاكرة متحيزًا لاستجابات الأشخاص في الإدارة الثانية. ثمة صعوبة أخرى تتمثل في أن التغير الناتج عن عينة معينة من المهام أو العناصر المختارة يعامل على أنه تباين منتظم يضيف إلى الموثوقية.

وهكذا ، فإن أي شخص صادف أن يعرف المزيد من الأجوبة لمجرد أن عددًا قليلاً من مواد الاختبار التي تم لمسها ، على سبيل المثال ، على هواية ذلك الشخص ، سوف يتم تفضيله أيضًا في الإدارة الثانية لأن نفس العناصر ، وليس نموذجًا جديدًا ، مستخدم. ولذلك ينبغي أن يسجل درجات عالية في كلا الاختبارين بسبب مصدر التغير 3 الذي يعامل على أنه تباين حقيقي.

اختبارات الاختبارات الموازية:

تتمثل إحدى طرق تجنب وجود مصدر الخطأ 3 ، مثل التباين الحقيقي ، في استخدام شكلين قابلين للمقارنة تمامًا أو "مكافئ" لأداة القياس. يجب أن يكون هذان النموذجان متطابقين قدر الإمكان ، باستثناء أن البنود المحددة أو الأسئلة في كل نموذج لن تكون متماثلة على الرغم من أنها تمثل كل منها عينة مماثلة من العناصر المختارة. يمكن إعطاء أحد الأشكال مباشرة بعد الآخر أو قد يتم إعطاؤه على فترات متباعدة ، اعتمادًا على ما إذا كان المرء معنياً بوجود مصدر اختلاف 2 مدرج ضمن تباين الأخطاء.

هذا النوع من الموثوقية ، عندما يتم استخدام اختبار المسافات ، يمثل التقييم الأكثر صرامة للاستقرار الذي يمكن القيام به. ومع ذلك ، غالبا ما يكون من المستحيل أو في أحسن الأحوال للغاية من الصعب بناء أشكال بديلة لأداة القياس.

كيف يمكن للمرء بناء شكلين بديلين ولكن ما يعادل من مقياس لأداء الوظيفة أو شكلين بديلين من نموذج التاريخ الشخصي؟ في كثير من الحالات لا يخلو من صعوبة كبيرة. هذا النقص في جهاز قياس قابل للمقارنة حقا تسبب في علماء النفس للبحث عن طرق إضافية لتقييم الموثوقية إلى جانب إجراءات إعادة الاختبار والإجراءات المتوازية.

طريقة الاختبار المقسمة

وعادة ما يشار إلى طريقة الموثوقية الرئيسية الثالثة باعتبارها مقياسًا للاتساق الداخلي لجهاز القياس. وهو يقدم مؤشرا على المدى الذي يسجله الناس لنفسهم ، بالنسبة لبعضهم البعض ، على التقسيمات الفرعية المختلفة للأداة الشاملة. ربما تكون هذه الطريقة هي الطريقة الأكثر استخدامًا لقياس الموثوقية حيث أنها تتطلب إنشاء نموذج واحد فقط ومع ذلك لا تتطلب إدارات متكررة من هذا النموذج.

ميكانيكاها بسيطة جدا. في أبسط أشكالها ، تكون طريقة الاتساق الداخلي هي طريقة الأشكال المتوازية التي تكون فيها الأشكال المتوازية نصفين من نفس الاختبار. يتم اختيار هذه الاختبارات النصفية بحيث تكون مكافئة قدر الإمكان ، على الرغم من أن الاختبار يتم تقسيمه ببساطة إلى نصفين عن طريق وضع جميع العناصر الفردية في النصف وجميع العناصر الزوجية في النصف الآخر. وهذا ما يطلق عليه النسخة الفردية من تقنية نصف الانقسام.

من المهم أن نتذكر أن فصل الاختبار الكلي إلى نصفين متساويين لا يحدث إلا عند تسجيل هذا الاختبار - وليس عند إدارته. وحيث أن الاختبارين الفرعيين هما نصف فقط ما دامت النسخة الأصلية ، فإن كل منهما يمثل عينة من السلوك لا يتجاوز نصف حجم الاختبار الكلي. وبالتالي فإن العلاقة (الموثوقية) بين النصفين من المرجح أن تكون أقل من تقدير موثوقية الدرجات بناءً على الاختبار الكامل.

للحصول على تقدير لمدى موثوقية الاختبار الكامل ، يمكن تطبيق معادلة سبيرمان براون بروبيري كالتالي:

r tt = 2r ½½ / 1 + r ½½

حيث r tt = موثوقية الاختبار الكلي (تقديري)

r 1/2 1/2 = لاحظ الارتباط بين نصفي الاختبار.

على سبيل المثال ، إذا كان الارتباط المرصود بين النصفين 0.40 ، فإن صيغة النبوءة ستقدر موثوقية الاختبار الكامل على النحو التالي:

r tt = 2 (0.40) / 1 + 0. 40 = 0.80 / 1.40 = 0.57

وبالتالي توفر طريقة الفصل النصفى طريقة لتقدير الموثوقية مع اختبار واحد وإدارة واحدة. ومع ذلك ، هناك بعض السلبيات لاستخدامه. عندما يكون لدى الفرد اختبار يتضمن عوامل سرعة في المقام الأول (مثل بعض الاختبارات الكتابية البسيطة) ، فإن الإجراء البديل النصف يعطي نتيجة عالية بشكل سلبي.

بما أن اختبارات السرعة تتضمن عادة عناصر سهلة ، فإن السؤال حول ما إذا كانت قد تم الرد عليها هو ما إذا كانت صحيحة أو غير صحيحة. وبالتالي ، فإن تقسيم الاختبار على أساس فردي ، على سبيل المثال ، قد يؤدي إلى نتائج متطابقة تقريبًا لكلا الشطرين ، وبالتالي وجود علاقة إيجابية عالية.

طريقة كودر ريتشاردسون:

يتم استخدام إصدار آخر من طريقة تقسيم النصف بشكل متكرر لقياس الاعتمادية. فيما يتعلق بتقنية إحصائية تُعرف بتحليل التباين ، يُعرف الشكل الأكثر شيوعًا باسم الإجراء Kuder-Richardson. طريقة Kuder-Richardson (KR) هي أيضا موثوقية الاتساق الداخلي الذي يعامل بشكل أساسي كل عنصر اختبار كاختبار فرعي ، بحيث بدلا من أن يكون هناك نصفين هناك n subtests ، حيث n هو العدد الإجمالي للعناصر على أداة القياس. إن تقنية KR تعادل حساب كل الارتباطات الممكنة بين أزواج من عناصر الاختبارات (سيكون هناك n [n - l] / 2 من هذه الأزواج) ، مع أخذ متوسطها ، وتعديل النتيجة باستخدام صيغة نبوءة سبيرمان-براون.

أين

r tt = الموثوقية التقديرية لإجمالي الاختبار

r ii = متوسط ​​الارتباط بين العناصر

K = عدد أزواج العناصر

مثل إجراء النماذج النصفية ، يتجاهل الإجراء Kuder-Richardson مصدر التغير 2 ولا يناسب اختبارات السرعة.

ويرد مقارنة ملخص في الجدول 2.4. يوضح هذا الجدول طرق الموثوقية المختلفة ويقارنها من حيث أنواع الاختلاف التي تشتمل عليها كاختلافات في الأخطاء.