برای ارزیابی مقیاسهای اندازه گیریو پرسشنامه های روانشناسی، دو معیار اعتبار و روایی وجود دارد که هر دو از مفروضه های نظریه کلاسیک تست سرچشمه می گیرند (نونالی، ۱۹۷۸).
از این رو ابتدا این دو مفهوم را در چهارچوب نظریه کلاسیک تست توضیح می دهیم و سپس آنها را از دیدگاه روی آورد جدید «نظریه تعمیم پذیری» طرح خواهیم کرد.
در نظریه کلاسیک تست این فکر ابتدا مطرح بود که برای اندازه گیری هر چیزی، با مسئله «یکنواختی و ثبات در سراسر اندازه گیریهای مکرر روبه رو هستیم.
بخش ثابت نمره یا بخشی که در سر تا سر اندازه گیریها یکسان است، «نمره حقیقی محسوب میشود.
این نمره به عنوان نمره ایدئال با میانگین مجموعه بزرگی از انبوه نمرات پنداشته می شود.
بنابراین نمره مشاهده شده در هر موقعیت عبارت است از مجموع نمره حقیقی و مقداری نمره خطا که برای نوسانات و افت و خیزهای تصادفی (شانسی) پیرامون نمره حقیقی در نظر گرفته می شود.
اعتبار به درجه بازیافت پذیری اندازه گیری اشاره دارد.
اگر شما اندازه گیری یک متغیر را در شرایط مختلف تکرار کنید، آیا همیشه نتیجه یکسانی به دست خواهید آورد؟
هر چه درجه ثبات اندازه گیری بیشتر باشد، میزان اعتبار بالاتر خواهد بود و در نتیجه خطای کمتری در اندازه گیری متغیر مورد سنجش وارد خواهد شد؛ درست مشابه میزان پارازیتی که در وسایل الکترونیک مثل رادیو وجود دارد.
اگر بخواهیم از جهت دیگری به آن بنگریم، می توان گفت که «عدم اعتبار» همان میزان خطا در اندازه گیری است.
به زبان ریاضی میزان واریانس خطا در نمره کلی را گویند؛ برای نمونه، فرض کنید که در کار کلینیکی یک زوج را برای اندازه گیری میزان رضایت مندی زناشویی» با پرسشنامه ای آزمون کرده اید.
انتظار شما این است که نمره های به دست آمده (حداقل در مدت کوتاه) تقریبا ثابت باشد.
اگر نمرات این زوج در یک فاصله دو هفته ای (البته بدون هیچ گونه مداخله درمانی در روابط آنها) نوسانات زیادی از خود نشان دهد، نمایانگر آن است که مقیاس مورد استفاده فاقد اعتبار است و احتمالا برای اندازه گیری مفهوم مورد نظر اعتبار لازم را ندارد.
بنابراین برخورداری مقیاس یا آزمون از اعتبار بالا بسیار لازم و ضروری است.
چرا که اگر در اندازه گیری خطای زیادی وجود داشته باشد، در خصوص اندازه های به دست آمده با ابهامات زیادی روبه رو خواهیم بود که به کار بردن یک آزمون «معتبر» از ادخال عوامل «شانس و خطا» در اندازه گیری جلو گیری می کند.
به بیان دیگر در بدترین حالت، اگر اندازه گیری به کلی بی اعتبار باشد، شما فقط خطای تصادفی را ثبت خواهید کرد و نه آنچه که واقعا قصد اندازه گیری آن را دارید.
آزمون بی اعتبار رابطه مشاهده شده بین دو متغیر را تقلیل میدهد و کشف هر نوع رابطه را بسیار مشکل می سازد.
هر رابطه ای بین دو اندازه متغير، محصول مشترک وجود رابطه حقیقی بین متغیرها و اثر (تضعیف کننده) بی اعتباری مقیاسهاست (نونالی، ۱۹۷۸)؛ برای نمونه در بررسی رابطه بین حمایت اجتماعی و افسردگی، اگر مقیاسی که برای اندازه گیری این دو «سازه» به کار می گیرید، از اعتبار کافی برخوردار نباشد .
حتی اگر رابطه حقیقی بین دو متغیر مورد نظر به طور متوسط قوی باشد .
باز هم این امکان وجود دارد که شما ضریب همبستگی بسیار ضعیفی را به دست آورید.
دلیل آن این است که چون ابزار اندازه گیری شما از اعتبار کافی برخوردار نبوده است، شما «سازه مورد نظر خود را در واقع اندازه گیری نکرده اید.
اندازه ای که شما به دست آورده اید، متشکل از ویژگی مورد نظر به اضافه مقداری نمره خطاست که بسته به میزان اعتبار آزمون شما درجه خطا می تواند از بسیار کم تا بسیار زیاد در نوسان باشد.
انواع اعتیار شیوه ارزشیابی اعتبار، به نوع ابزار اندازه گیری و نوع هماهنگی و ثباتی که پژوهشگر به دنبال آن است بستگی دارد.
روشهای رایج اعتباریابی عبارت اند از:
1. اعتباریابی با روش آزمون مجدد
در این روش پس از آنکه مقیاس مورد نظر ساخته شد، در دو موقعیت جداگانه (مثلا با فاصله یک هفته با یک ماه) بر روی یک نمونه مشخص اجرا می شود.
اعتبار آزمون به وسیله ضریب همبستگی بین دو گروه نمرات به دست آمده از دو موقعیت مختلف به دست می آید.
به این نوع اعتباریابی گاهی ضریب ثبات نیز می گویند.
٢. اعتباریابی از طریق آزمونهای موازی با مشابه .
این روش نیز دنباله و در راستای روش آزمون مجدد است با این تفاوت که به جای اجرای دوباره آزمون در دو موقعیت متفاوت، آزمون مشابه یا موازی با آزمون مورد نظر بر روی یک نمونه در یک زمان به کار گرفته می شود (برخی از آزمونها برای تسهیل این مرحله فرم A و B دارند.
در اینجا نیز ضریب اعتبار عبارت است از همبستگی نمرات دو آزمون
٣. اعتباریابی با روش دو نیمه کردن . بسیاری از آزمونها از تعدادی سؤال مشابه با موازی، مانند سؤالاتی که به دنبال یک سازه خاص هستند، تشکیل شده است؛ برای نمونه، دو سؤالی که در آزمون افسردگی بک به صورت موازی قرار داده شده و سازه خاصی را هدف گیری می نمایند عبارت اند از سؤال ۳ و ۱۰.
اگرچه این دو سؤال موارد متفاوتی را مطرح می کنند، فرض اصلی بر آن است که هدف هر دو سنجش یک سازه خاص یعنی «خودپنداری» است.
اعتباریابی با روش دو نیمه کردن با محاسبه همبستگی بین دو نیمه آزمون انجام می گیرد.
معمولا روش دو نیمه کردن را به طرق مختلف انجام می دهند:
یکی آنکه پژوهشگر می تواند تمام آزمون را یکباره بر روی یک نمونه اجرا نماید و به هنگام تجزیه و تحلیل نتایج آزمون را دو نیمه کند و هر نیمه را به عنوان یک آزمون با نیمه دیگر مقایسه کند؛ راه دوم آنکه آزمون را از ابتدا به دو نیمه کرده، در دو موقعیت مختلف به طور مستقل اجرا کند و نمرات به دست آمده را مورد ارزیابی قرار دهد.
از آنجایی که به شیوه های مختلفی می توان از روش دو نیمه کردن استفاده کرد (نیمه اول و نیمه دوم یا سؤالات زوج در یک نیمه و سؤالات فرد در نیمه دیگر)، به نظر می رسد که استفاده از روش «هماهنگی درونی» مفیدتر باشد.
۴. هماهنگی درونی. روش هماهنگی درونی نیز با مقیاسهای مرکب از چندین سؤال موازی مورد استفاده قرار می گیرد.
«هماهنگی درونی» در واقع شیوه محاسبه اعتبار از طریق واریانس و کوواریانس تمامی سوالات از یکدیگر است.
در این روش، همبستگی متقابل بین پرسشهای آزمون به منظور بررسی اینکه آیا آزمون مورد نظر اساس یک سازه واحد (مانند افسردگی یا اضطراب یا حمایت اجتماعی) را اندازه گیری می کند، به کار گرفته می شود جزئیات مربوط به این روش در بخش بعدی خواهد آمد). هماهنگی درونی به لحاظ ریاضی مساوی است با میانگین تمامی ضرایب اعتبار دو نیمه های احتمالی
۵. اعتبار میان نمره گذاران .
اعتبار میان نمره گذاران برای بررسی، مقابله و مقایسه اعتبار مشاهده ها انجام می گیرد؛ برای نمونه، برای نمره گذاری میزان همدلی درمانگر در تعاملات درمانی و یا برآورد سن عقلی کودکان بر اساس نقاشی هایشان یا برآورد میزان دلبستگی بین مادر و کودک بر اساس مشاهده تعاملات بین فردی مادر و کودک و غیره از این روش استفاده می شود.
افرادی که نمره گذاریها را انجام می دهند، ممکن است داور، مصحح یا نمره گذار نامیده شوند.
اعتبار در اینجا به معنی میزان موافقت نمره گذاران در امر نمره گذاری است.
در اینجا دو موضوع خاص وجود دارد:
۱) سیستم نمره گذاری آزمون مورد نظر تا چه حد مناسب و خوب است؟ و
۲) افراد نمره گذار تا چه حد درست عمل می کنند؟
مثلا آیا می توان در فرم نهایی فقط به یک نمره گذار اکتفا کرد و دیگری را حذف نمود؟
روایی در فرایند ساخت و ارزشیابی مقیاس و آزمونهای روانی، پژوهشگر بایستی ابتدا به اعتبار و سپس به روایی مقیاس توجه کافی داشته باشد.
در تعریف سنتی، اروایی یعنی اینکه وسیله اندازه گیری ما (آزمون با مقیاس) واقعا می تواند خصیصه مورد نظر را اندازه گیری کند و نه چیز دیگر را به عنوان مثال، آیا یک مقیاس افسردگی واقعة افسردگی را می سنجد یا چیز دیگری مثل عزت نفس یا اضطراب را؟
اعتبار یک آزمون همواره شرط لازم برای صحت آن آزمون است، اما شرط کافی برای روایی آن نیست.
برای آنکه یک آزمون ارواه باشد، نخست بایستی با اعتباره باشد، در غیر این صورت اندازه گیری با خطاهای زیادی همراه خواهد بود؛ برای مثال اگر دو متخصص نتوانند توافق کنند که آیا در روند درمان، نشانه ای دال بر «انکاره مراجع وجود دارد یا خیر، ایجاد طبقه با مقوله ای تحت عنوان «انکاره نمی تواند روایی داشته باشد و یا در صورت وجود چنین مقوله ای برای آن نمی توان «روایی» در نظر گرفت.
از طرف دیگر یک آزمون ممکن است از اعتبار بالایی برخوردار باشد، اما اروایی» نداشته باشد؛ برای مثال، اندازه گیری دور سر به عنوان معیاری برای هوش انسان (یعنی ممکن است ابزار مورد استفاده برای سنجش دور سر، دقیق و پایا باشد اما چیز مورد ادعا را (هوش) نمی سنجد).
راههای مختلفی برای سنجش روایی آزمونها وجود دارد که هر یک از روش خاص خود پیروی می کند:
روایی محتوایی. بدین معناست که آیا سؤالات با مواد آزمودنی به طور مناسب در بر گیرنده جنبه های مختلف سازه مورد نظر، آن گونه که در تعریف عملی آمده است، هستند؟ برای مثال آیا آزمونی که قرار است افسردگی را بسنجد عناصری چون خلق غمگین، مشکل خواب با تغییر در اشتها را، که شاخصهای اصلی افسردگی هستند، می سنجد؟ .
۲. روایی صوری. آیا سؤالات یا مواد آزمون در ظاهر مناسب و صحیح به نظر می رسند؟
برای مثال سؤالات مربوط به افسردگی باید در خصوص خلق پایین و غمگینی سؤال کند و نه در خصوص نگرش فرد نسبت به قدرت سیاسی و با یک آزمون ریاضی زمانی روایی صوری دارد که در سؤالاتش عملیات حساب را در نظر دارد و نه حافظه عددی.
باید توجه داشت که روایی صوری همیشه برای برآورد روایی آزمون مناسب نیست.
گاهی ممکن است یک آزمون سؤالاتی را در خود جای داده باشد که به لحاظ صوری با سازه های مورد انتظار رابطه ای نداشته باشد؛ مثل پرسشنامه شخصیتی مینو سوتا معروف به MMPI که تعدادی سؤالات ظریف و زیرکانه برای دروغ سنجی، وانمودسازی و تقلید دارد که به ظاهر با هدف اصلی آزمون بیگانه است (وینر، ۱۹۸۴).
روایی صوری تقریبا به معنی یک رابطه کلی است برای آنکه اطمینان حاصل شود که مقیاس برای مقاصد مورد نظر درست و مناسب به نظر می رسد، اما در پژوهشهای کیفی، هنگامی که اروایی پدیدارشناختی» یا خود آشکار سازی محور قرار می گیرد، روایی صوری بسیار اساسی است (یکرو آدیسون، ۱۹۸۹؛ اسمیت و هشو سیوس، ۱۹۸۶).
٣. روایی ملاک. منظور این است که مقیاس با آزمون مورد نظر با ملاکها با شاخصهای مربوط تا چه میزان همبستگی دارد؟
روایی ملاک بر دو نوع است:
الف) روایی همزمان که در آن مقياس مورد نظر بایستی با ملاکهای فعلی همخوانی داشته باشد (مثلا نمره فرد در آزمون افسردگی بایستی با ارزیابی بالینی متخصص همخوانی داشته باشد) و
ب) روایی پیش بین" که آزمون بایستی با معیارهای آینده همبستگی و همخوانی داشته باشد (مثلا نمره فرد در آزمون ناامیدی باید بتواند رفتارهای خود کشی فرد را پیش بینی کند و با نمره هوش برای پیش بینی عملکرد تحصیلی که بایستی بتواند به خوبی عملکرد تحصیلی فرد را پیش بینی کند).
باید توجه داشت که مشاهده اینکه مقیاسی بتواند در گروه ملاک را از یکدیگر متمایز سازد (مثلا یک مقیاس افسردگی بتواند بین بیماران افسرده و غیر افسرده تمایز ایجاد نماید) نیز زیر همین عنوان قرار می گیرد.
این نیز نمونه ای از روایی همزمان است، اگرچه گاهی اوقات به اشتباه آن را روایی افتراقی می نامند.
روایی سازه
روایی سازه مفهوم پیچیده تری است و همچنان که از نامش پیداست به جای آزمودن روشهای فردی اندازه گیری سازه مورد نظر، روایی خود سازه را مورد آزمون قرار می دهد و این همان چیزی است که انواع روایی، که قبلا مورد بحث قرار گرفتند، بدان می پردازند (کرونباخ و میهل، ۱۹۵۵).
در واقع در اینجا این سؤال مطرح است که آیا الگوی روابط بین مقیاسهای این سازه و مقیاسهای سازه های دیگر، با انتظارات نظری هماهنگی دارند؟ (چیزی که کرونباخ و میهل وزن خالص قانونی، مینامند).
روابط مربوط را می توان در یک ماتریس چند خصیصه ای - چند روشی نشان داد (کمیل و فیسک، ۱۹۵۹).
چنین ماتریسی همبستگی بین چندین روش اندازه گیری و چندین سازه مختلف را در خود نشان می دهد.
پژوهشگر می تواند با مراجعه به جدول، مشاهده کند که کدام مقیاسهای مربوط به سازه مورد نظرش با مقیاسهای سازه های مشابه همبستگی دارد (روایی همگرا) و با مقیاسهای سازه های نامشابه با بی ربط همبستگی نداشته و با همبستگی ضعیفی از خود نشان می دهد (روایی افتراقیا! برای مثال، چنین پیش بینی می شود که مقیاسهای مربوط به خلاقیت با بهره هوشی و حافظه همبستگی متوسطی نشان دهد، اما با کنجکاوی همبستگی بالاتري و همانند آن.
ماتریس چند خصیصه ای ۔ چند روشی سطح و گستره واریانس روش را نیز نشان می دهد.
برخی مقیاسهایی که از یک نوع اند (مقیاسهای مشابه) به همبستگی با یکدیگر گرایش دارند؛ مثلا نمرات مقیاسهای خودسنجی اغلب یک همبستگی متقابل در سطح متوسط از خود نشان میدهند، حتی اگر خودسنجیها در پی سنجش سازه های کاملا متفاوتی باشند.
به همین دلیل ضرورت دارد که در یک مطالعه با برنامه پژوهشی از روشهای اندازه گیری مختلف و متنوع استفاده نمود و نباید به یک روی آورد با روش اندازه گیری واحد اکتفا کرد.
ضریب اعتبار و دقت آزمون بر حسب تعریف، یک مقیاس معتبر و مقیاسی است که اگر اندازه گیریهای مختلفی در شرایط یکسان با آن انجام گیرد، همواره نتایجی یکسان به دست خواهد داد.
از طرف دیگر، اندازه گیری با یک مقیاس دقيق، نتایجی منطبق با استاندارد شناخته شده به دست خواهد داد.
اگرچه به صورت نظری فرض بر آن است که یک آزمون با ابزار با اعتبار، دقیق نیز هست، در عمل ممکن است با یک ابزار اندازه گیری سر و کار داشته باشیم که باعتباره داشته باشد اما دقیق نباشد.
فرض کنید یک دماسنج داریم که هر زمان آن را در آب یخ فرو می بریم، ۲۱ درجه فارنهایت را نشان می دهد.
از آنجایی که در شرایط یکسان همواره یک عدد را نشان می دهد (در آب بخ ۲۱ درجه، در آب معمولی ۱۲ درجه و در هوای آزاد ۸ درجه) این دماسنج از واعتباره برخوردار است، چرا که در سنجش ثبات دارد؛ اما از آنجایی که در آب یخ باید ۳۲ درجه فارنهایت را نشان دهد، دماسنج مذکور با استاندارد شناخته شده سازگاری و مطابقت ندارد، بنابراین دقیق نیست.
دماسنج می تواند فاقد دقت، ولی واحد اعتباره باشد، اما عکس آن صادق نیست؛ یعنی نمی تواند دقیق باشد، اما اعتباری نداشته باشد.
اگر دماسنج هر بار که درون یخ گذاشته می شود درجه متفاوتی را نشان دهد، واضح است که درجات مختلف در شرایط یکسان با استاندارد شناخته شده نیز مطابقت نخواهد داشت، مگر به صورت احتمالی همان طور که می دانیم در اندازه گیریهای روان شناختی، استانداردهای بسیار کمی وجود دارد.
بنابراین دقت مقیاسها را اغلب نمی توان محاسبه کرد؛ مثلا هیچ درونگرای استانداردی وجود ندارد تا بتوان دقت مقیاس درونگرایی - برونگرایی را در مقایسه با آن سنجید، اما با وجود این در اکثر شرایط پژوهشی، اعتبار آزمونها را می توان ارزیابی کرد.
اگر محقق برای ثبت رفتار از وسیله ای استفاده می کند، می تواند بررسیهای لازم را انجام دهد تا مطمئن شود که وسیله مورد نظرش به درستی و با حداقل خطا کار می کند.
همان گونه که قبلا توضیح داده شد، در برخی از مطالعات از چندین مشاهده گر برای ثبت رفتار استفاده می شود، در چنین مواقعی درجه توافق بين مشاهده گران برای اعتباریابی (اعتبار بین نمره گذاران مورد استفاده قرار می گیرد.
اعتبار و روایی
درست همان گونه که یک مقیاس می تواند «معتبر» باشد ولی دقیق» نباشد، یک مقیاس می تواند واجد «اعتبار» بوده ولی فاقد «روایی» باشد؛ برای مثال می توان به کارهای اولیه جمجمه شناسان در قرن ۱۹ اشاره کرد.
این گروه از جمجمه شناسان به رهبری فرانتس گال بر این باور بودند که توانمندیهای ذهنی مختلف را می توان از طريق اندازه گیری ابعاد قسمتهای مختلف جمجمه افراد سنجید.
آنها برای آنکه اندازه گیری هایشان را با اعتبار» سازند، ابزارهای خاصی مانند پر گارهای بزرگ اندازه گیری ابداع نمودند.
با استفاده درست از این وسایل، جمجمه شناسان قادر بودند تا سنجشهایی با اعتبار بسیار بالا از شکل و اندازه جمجمه ها جمع آوری نمایند.
اگر جمجمه شناسان به این حد اکتفا می کردند که بگویند اندازه گیریهایشان فقط در خصوص ویژگیهای جمجمه چیزهایی را نشان می دهد، شاید قابل قبول تر بود تا اینکه آنها مدعی شوند که اندازه گیری آنها سنجش غیر مستقیم (ولی معتبر) از ویژگیهای ذهنی مانند حافظه، شخصیت، هوش، بزهکاری و گرایش به جرم را به دست می دهد.
واضح است که اندازه یا شکل جمجمه نمی تواند چنین اطلاعاتی را فراهم آورد.
اگرچه ابزارها و به تبع آن اندازه گیریهایشان از اعتبار بالایی برخوردار بوده است، روایی نداشته و شاخصی مناسب برای ویژگیهای روانی نبوده است (قادر به سنجش پدیده مورد ادعا نبود).
در اینجا نیز مشاهده می شود که یک مقیاس می تواند معتبر ولی «فاقد روایی» باشد، اما عکس آن صادق نیست.
یعنی اگر مقیاسی از اعتبار لازم برخوردار نباشد، به هیچ عنوان «روایی» نداشته و به هنگام سنجش، چیزی جز ابزاری برای اندازه گیری مقادیری خطای تصادفی نیست.