CVRزمانی برابر یک است که همه ارزیابان آن سوال را ضروری تشخیص دهند و هنگامی که بیش از نیمی اما کمتر از کل ارزیابان سوال را ضروری تشخیص دهند، مقدار آن بین ۰ و ۱ می شود. CVRزمانی منفی می شود که کمتر از نیمی از ارزیابان سوال را ضروری درجه­بندی کنند (ویلسون[۱۴۳]، پان[۱۴۴] و چامسکی[۱۴۵]، ۲۰۱۲).
روایی ملاکی
روایی ملاکی به بررسی میزان ارتباط نمرات آزمون و ملاک می ­پردازد. میزان این رابطه به صورت ضریب همبستگی بیان می­ شود که آن را ضریب روایی می­نامند. هر زمان که از نمرات یک آزمون برای پیش ­بینی عملکرد افراد در آزمون دیگر استفاده می­ شود، روایی ملاکی مطرح می­گردد. به آزمونی که عملکرد فرد در آن پیش بینی می­ شود ملاک می­گویند. داده ­های ملاک باید از ویژگی­های مطلوبی از قبیل؛ مربوط بودن، غیر سودار، اعتبار و در دسترس بودن برخوردار باشند. روایی ملاکی به دو نوع تقسیم می­ شود. نوع اول؛ روایی پیش­بین، ویژه آزمون­هایی است که برای پیش ­بینی موفقیت تحصیلی، شغلی افراد در آینده به کار می­رود. برای برآورد این روایی، بین نمرات آزمون و اندازه­ های ملاکی که بعد از یک فاصله زمانی از اجرای آزمون به دست آمده­اند، همبستگی محاسبه می­ کنند. به ضریب همبستگی به دست آمده، ضریب روایی پیش­بین می­گویند. نوع دوم، روایی همزمان است. برخلاف روایی پیش­بین که داده ­های ملاک در آینده به دست می­آمدند، در اینجا داده های ملاک موجودند. این نوع روایی از طریق محاسبه همبستگی میان نمرات آزمون و ملاک به طور همزمان به دست می ­آید. هدف از روایی همزمان مشخص کردن این نکته است که آیا می­توان آزمونی را جایگزین آزمونی دیگر کرد یا نه.
دانلود پروژه
روایی سازه و روش­های برآورد آن
روایی سازه، دیگر انواع روایی را در بر می­گیرد و در عمل تمامی روش­هایی را که در مطالعه­ سایر انواع روایی به کار می­روند را مورد استفاده قرار می­دهد و بیشتر از آنها جنبه­ نظری دارد. محقق بر اساس نظریه­ای، سازه مورد نظرش را تعریف و برای آن آزمون می­سازد. مطابق با نظریه، درباره سازه یا ویژگی مورد اندازه ­گیری پیش ­بینی­هایی می­ کند. برای آزمودن پیش ­بینی­ها، به جمع­آوری شواهد از منابع گوناگون می ­پردازد و رابطه بین نمرات آزمون را با سازه­ها یا مفاهیم نظریه مورد نظر تعیین می­ کند. چنانچه نتایج حاصل در راستای پیش ­بینی­های نظریه بود، گفته می­ شود که آزمون ساخته شده، یک آزمون رواست. نکته دیگر اینکه اسقرار روایی سازه برای آزمون یک فرایند مداوم است. روایی سازه مستلزم جمع­آوری شواهدی است تا بر اساس آن­ها معنای نمره آزمون روشن شود. این شواهد می ­تواند منطقی یا آماری باشد که در بخش زیر معرفی می­شوند.
روایی همگرا[۱۴۶] : یکی از راه­های تعیین روایی سازه این است که بین آزمون مورد نظر با آزمون روای دیگری که سازه مشابه را اندازه می­گیرد، همبستگی گرفته شود. در صورت بالا بودن همبستگی، فرض می­ شود که آزمون مورد نظر نیز از روایی برخوردار است.
روایی واگرا[۱۴۷] : بین آزمون مورد نظر با آزمون روای دیگری که سازه متقابل آن را می­سنجد، همبستگی گرفته می­ شود. در صورت عدم همبستگی یا همبستگی بسیار ضعیف، گفته می­ شود؛ آزمون از روایی واگرا برخوردار است.
همسانی درونیدر این روش، انسجام و هماهنگی درونی آزمون بررسی می­ شود. همبستگی­های متقابل بین سوالات آزمون (همچنین سوال – نمره کل و همبستگی خرده آزمون­ها با همدیگر) را می­توان به منظور تعیین این ادعا که آزمون مورد نظر سازه واحدی را می­سنجد به کار برد.
تمایز سنیاگر ویژگی یا سازه­ای از افراد با افزایش سن تغییر کند، نمرات آزمونی که همان ویژگی یا سازه را اندازه گیری می­ کند، باید این تغییرات را نشان دهد.
تحلیل عاملی[۱۴۸] : ترکیبی از تعدادی فنون آماری است که هدف آن خلاصه کردن ماتریس همبستگی است. تحلیل عاملی به بررسی ماهیت روابط بین متغیر­های یک مجموعه معین می ­پردازد. تعداد زیادی از متغیر­ها با همدیگر ادغام می­شوند و بدین وسیله تعداد معدودی متغیر که هر کدام عامل نامیده می­شوند، ایجاد می­ شود. سپس همبستگی متقابل این عوامل به عنوان برآوردی از روایی سازه محاسبه می­ شود.
تفاوت­های گروهیاگر نظریه­ای در مورد سازه یا ویژگی مورد ارزیابی بر وجود تفاوت های گروهی دلالت کند، می­توان پیش ­بینی کرد میانگین نمرات گروهی که دارای ویژگی یا سازه مورد نظر است در آزمونی که مدعی اندازه ­گیری آن ویژگی است، بالاتر می­باشد، نسبت به میانگین نمرات گروهی که فاقد آن ویژگی است. پس از اجرای آزمون در این دو گروه و تجزیه و تحلیل آن، اگر پیش ­بینی­ها تأیید شد، گفته می­ شود؛ آزمون مورد نظر توانسته است در بین گروه ­های مختلف تفکیک لازم را به عمل بیاورد. بنابراین، آزمون از روایی سازه برخورار است. به این نوع روایی، روایی تفکیکی نیز گفته می­ شود.
ارتباط روایی و اعتبار
اغلب در ارتباط اعتبار و روایی میان محققان کمی و کیفی اختلاف وجود دارد. محققان کیفی اغلب روش­های اندازه ­گیری را به کار می­برند که نسبت به روش­هایی که توسط محققان کمی طرح­ریزی می­ شود، اعتبار کمتری دارند. با این حال محققان کیفی این اندازه­ کمتر – معتبر را ترجیح می­ دهند، زیرا این اندازه­ها آنچه را اندازه گیری می­ کنند که آنها می­خواهند اندازه گرفته شود. یعنی روایی بیشتری دارند. بین این دو ویژگی روان­سنجی آزمون، امکان تنش وجود دارد. اعتبار بالاتر می ­تواند با استاندارد­سازی کردن فرایند سنجش به دست بیاید که آن هم بالقوه گستره سازه اندازه ­گیری شده را کاهش می­دهد و در نتیجه، روایی کاهش می­یابد. برای مثال همسانی درونی بالاتر بوسیله افزایش همگنی سوالات به دست می ­آید. با این حال آن سازه تاحدی به ناهمگنی سوالات نیاز دارد و این میان اعتبار و روایی تنش ایجاد می­ کند. در نظریه کلاسیک آزمون فرض بر این است که نمره آزمون آزمودنی ترکیبی از نمره واقعی و خطای تصادفی است. روایی روی تعریف (یعنی کاربرد و تفسیر) نمره واقعی تمرکز می­ کند، لذا هر خطای منظم یا سوگیری قسمتی از نمره واقعی است در حالیکه در تحلیل اعتبار تنها به خطاهای تصادفی پرداخته می­ شود (میلر، ۲۰۱۰). اعتبار و روایی مفاهیم مرتبط هستند. در CTT بیشینه مقدار نظری روایی هر آزمون نمی­تواند بیشتر از ریشه دوم اعتبار (شاخص اعتبار) آن باشد. زیرا به طور نظری یک آزمون به اندازه­ای که با خودش همبستگی دارد با هر متغیر دیگری همبسته نخواهد بود. می توان اعتبار بدون روایی را تصور کرد اما عکس آن صحیح نیست.
رین اسکاف (۲۰۰۱) بیان می دارد که دو آزمون را در نظر بگیرید که در واقع نمره واقعی یکسانی را اندازه ­گیری نمی کنند، چون آنها صفت­های مختلفی را اندازه ­گیری می­ کنند. در این صورت یک آزمون با اعتبار کمتر می ­تواند روایی بالاتری داشته باشد، اگر صفتی که آن را اندازه ­گیری می­ کند ارتباط نزدیک­تری با پیامد پیش ­بینی شده آزمون داشته باشد. برای مثال، یک آزمون کتبی مهارت صخره نوردی ممکن است نسبت به یک آزمون عملکردی صعود از دیوار در یک سالن ورزشی اعتبار بیشتری داشته باشد، اما دومی ممکن است روایی بیشتری به عنوان یک پیش ­بینی کننده از عملکرد در یک موقعیت صخره نوردی واقعی داشته باشد.
محتوا
برنامه­ ریزان درسی و آموزشی، ابتدا نیازها را شناسایی کرده و برای مرتفع ساختن آنها، هدف­های
آموزشی را تعیین می­ کنند. سپس به تهیه و تنظیم محتوا بر اساس هدف­های آموزشی تعیین شده می­پردازند. در ارتباط محتوا با هدف ها قابل ذکر است که می توان از طریق محتوا نیز هدف های آموزشی را لحاظ کرد. محتوا به مجموعه ای از اصول، مفاهیم و اطلاعات مرتبط به یک درس اشاره دارد که به دانش ­آموزان ارائه و آموزش داده می­ شود. محتوا را می­توان به منزله­ی پلی برای رسیدن به هدف­های آموزشی تلقی کرد.
تحلیل محتوا
تحلیل محتوا روش مطالعه و تجزیه و تحلیل ارتباط ها به شیوه نظامدار، عینی و کمی برای اندازه ­گیری متغیر­هاست. در گذشته برای اندازه ­گیری متغیرها با این روش، از تحلیل محتوا کمتر استفاده شده است. اما کاربرد جدید و فزاینده آن در پژوهش­های رفتاری به اندازه ­گیری متغیرهایی معطوف است که بدون این روش، اندازه ­گیری آن ها امکان­ پذیر نبوده است. البته این گفته بدان معنی نیست که کاربرد این روش برای تعیین تأکید نسبی یا فراوانی پدیده ­ها­یی ارتباطی مانند تبلیغات، روند ها، سبک ها، تغییر در محتوا و خوانا بودن بی­اهمیت تلقی شود. تحلیل محتوا در درجه­ نخست به عنوان روشی برای مشاهده و اندازه ­گیری مورد توجه است. به جای مشاهده مستقیم رفتار افراد، یا درخواست از آنها برای پاسخ دادن به مقیاس­ها، یا مصاحبه با آن­ها پژوهشگر ارتباط­هایی که افراد ایجاد کرده ­اند انتخاب و سوالاتش را در آن ها جستجو می­ کند. این دیدگاه از تحلیل محتوا منطقی و اقتصادی است. در عمل، آن را از طبقه تحلیلی محض جدا کرده و در همان طبقه مصاحبه­ ها، مقیاس­ها و دیگر روش­های مشاهده قرار می­ دهند. بدین­ترتیب آگاهانه کاری انجام می­گیرد که با فعالیت­های مشاهده­ای قبلی تفاوت اساسی ندارد؛ در واقع متغیر­ها مشاهده و اندازه ­گیری می­شوند( کرلینجر، ۱۹۸۶، ترجمه ی شریفی، ۱۳۸۸، ص ۲۲۳).
تحقیقات انجام شده در داخل و خارج از ایران
حسنی، سامری، عباس زاده و موسوی (۱۳۹۲) در مطالعه­ ای به بررسی نابرابری در آموزش و
پرورش دانش ­آموزان دختر و پسر مقطع متوسطه­ی استان آذربایجان غربی پرداختند. این پژوهش از نوع اسنادی و پیمایش بوده که با نمونه گیری طبقه­ای تصادفی نمونه ­ای به حجم ۸۱۵ (۴۱۹ پسر – ۳۹۶ دختر) انتخاب شد. یکی از سوالات این مطالعه بررسی تفاوت بین پسران ودختران از لحاظ شاخص­ های برونداد شناختی (دانشی) بود که برای پاسخ­گویی به این سوال، از معدل کتبی دانش ­آموزان سال اول، دوم و سوم متوسطه نظری و دوره­ پیش دانشگاهی و درصد قبولی در کنکور استفاده شد. میانگین نمرات برای دختران (۷۵/۱۴) و پسران (۱۴) و همچنین درصد قبولی کنکور برای دختران (۲/۵۰) و پسران (۳۶/۴۶) بود که بیانگر عملکرد بهتر دختران نسبت به پسران است.
آتشک (۱۳۹۰) در یک ارزشیابی و با روش تحقیق تحلیل ثانویه داده های سرشماری سال ۹۰، به
مطالعه­ عدالت جنسیتی در نظام آموزشی ایران پرداخت. از نتایج به دست آمده این بود که علی­رغم دسترسی کمتر دختران به آموزش در تمامی مقاطع تحصیلی، آنها عملکرد تحصیلی بهتر و ماندگاری بیشتری نسبت به پسران در نظام آموزشی داشته اند.
بوالحسنی (۱۳۹۰) اعتبار بخشی آزمون کنکور کارشناسی ارشد رشته ی معماری را با بهره گرفتن از
مؤلفه­ های واریانس (نظریه تعمیم­پذیری) بررسی کرد. جامعه­ آماری این مطالعه، کلیه­ داوطلبان شرکت کننده در کنکور سراسری ارشد سال ۱۳۸۹ مجموعه ی معماری می­باشد. با نمونه گیری تصادفی ساده، ۲۰۱ نفر انتخاب شد. این آزمون، دارای یک پروژه عملی به نام اسکیس است که از داوطلبان خواسته می­ شود با در نظر گرفتن ملاک­های از پیش تعیین شده توسط متخصصین، طرحی را در محدوده­ زمانی مشخص و با رعایت قوانین لازم، ترسیم کنند. این پروژه عملی توسط تعدادی مصحح متفاوت و مستقل از هم، بر اساس ملاک­های مشخص نمره­گذاری می شود. در این مطالعه، برای هر داوطلب ۳ نمره که توسط ۳ ارزیاب داده شده است، به عنوان داده ­های تحقیق مورد تحلیل قرار گرفت. جهت تحلیل داده ها، از نرم افزارEDUG6.0 استفاده شده است. وضعیت رویه­های این مطالعه به این قرار است: رویه­ی افراد با ۱۹۶سطح (۹۸ دختر و ۹۸ پسر) در داخل رویه­ی جنسیت آشیان کرده است. رویه افراد و ارزیابان و همچنین، رویه ارزیابان و جنسیت، نسبت به هم متقاطع محسوب می­شوند. در مجموع، تقریباً ۲۸ واحد از واریانس نمرات، واریانس خطای نسبی است که ۹۰ درصد آن مربوط به منبع واریانس(RP:G) می­باشد. همچنین، ۷۳/۳۶ واحد از واریانس نمرات، واریانس مطلق است که ۷۰ درصد آن مربوط به منبع واریانس (RP:G) می باشد. ضرایب تعمیم پذیری به دست آمده در دو وضعیت مطلق و نسبی بالاتر از ۸/۰ می­باشد که بیانگر مطلوب بودن دقت اندازه­هاست. ضریب تعمیم­پذیری نسبی در حالتی که ۶،۵،۴،۳،۲،۱و۷ ارزیاب وجود داشته باشد به ترتیب برابر ۷۱/۰، ۸۳/۰، ۸۸/۰، ۹۱/۰، ۹۲/۰ و ۹۳/۰ است. اگر ضرایب بالاتر از ۸/۰ مطلوب در نظر گرفته شوند، با دو ارزیاب نیز ضریب مورد نظر به دست می ­آید.
رحیمی (۱۳۸۷) به ارزیابی و تحلیل سطوح حیطه شناختی و شاخص­ های روان­سنجی سوالات
امتحانات­نهایی پرداخت. جامعه آماری در این مطالعه، کلیه اوراق امتحانی تصحیح شده دروس ریاضی، زبان انگلیسی، تاریخ، جغرافیا و آمادگی دفاعی دانش ­آموزان پایه سوم راهنمایی استان خوزستان در خرداد ماه ۱۳۸۶ می­باشد که از این میان با نمونه گیری خوشه ای، ۱۰ منطقه آموزشی انتخاب و با نمونه گیری طبقه­ای از میان مناطق منتخب، ۱% ورقه های امتحانی معادل ۹۵۵ ورقه (در مجموع ۴۲۹۷ ورقه امتحانی) از هر درس(به غیر از درس آمادگی دفاعی) به تفکیک جنسیت به عنوان نمونه آماری تعیین گردید. از نتایج به دست آمده در این مطالعه می­توان به موارد زیر اشاره کرد:
طراحان در همه درس­ها بجز درس ریاضی، به اهداف در سطوح پایین حیطه شناختی توجه داشته اند. با در نظر گرفتن تمامی شاخص­ های مورد نظر، آزمون ریاضی بیشترین و آزمون آمادگی دفاعی کمترین تطابق را با اصول سنجش و روان­سنجی داشته اند. همچنین، دروس مذکور بیشترین و کمترین ضریب اعتبار ( همسانی درونی) را به میزان (۹۱/۰–۶۱/۰) به خود اختصاص داده­اند.
به طور کلی می­توان گفت؛ در همه ی دروس، اکثر سوالات در حد مطلوب و متوسط طرح شده ­اند. ضریب تمیز سوالات مطلوب بوده، به گونه ­ای که آزمون قادر به تفکیک دانش ­آموزان قوی و ضعیف بوده است. همچنین سوالات همسانی درونی خوبی داشته اند به طوریکه نمی­ توان پیشنهاد حذف هیچ سئوالی را داد.
جزایری در سال (۱۳۸۴) به بررسی اعتبار نمره­گذاری معلمان در امتحانات تشریحی هماهنگ و
نهایی دوره آموزشی عمومی سال سوم دبیرستان در رشته­ های علوم انسانی، ریاضی فیزیک و علوم تجربی و همچنین سال سوم راهنمایی در استان لرستان پرداخته است. در این تحقیق با بهره گرفتن از روش نمونه گیری تصادفی خوشه­ای، از میان اوراق امتحانات تشریحی هماهنگ و نهایی سال سوم راهنمایی و سال سوم مقطع متوسطه ۱۰ منطقه آموزشی، ۷۶۷ ورقه امتحانی مورد مطالعه قرار گرفت که از روش تحلیلی جهت نمره­گذای این اوراق استفاده شده است. روش تحقیق به کار گرفته شده، همبستگی بوده و به منظور جمع آوری اطلاعات، با بهره گرفتن از جدول آرایش رتبه ­بندی نمرات و مشاهده اوراق امتحانی، اطلاعات لازم گردآوری و جهت بررسی میزان اعتبار نمره­گذاری مصححان، روش گیلفورد به کار گرفته شده است. نتایج به دست آمده از این تحقیق عبارتند از :
ضریب اعتبار برای دروس مورد مطالعه در رشته­ های علوم انسانی و علوم تجربی ۹۹/۰ و دامنه
ضریب اعتبار برای دروس مورد مطالعه در رشته ریاضی فیزیک و سال سوم راهنمایی (۹۹/۰ – ۹۵/۰) به دست آمده است.
۲/۹۷ درصد از تغییرات نمرات اوراق امتحانی در مراحل اول و دوم تصحیح در دامنه کمتر از ۲۵/۰
است که این بیانگر اشتراک نظر و توافق بسیار بالای مصححان اول و دوم این اوراق می­باشد. به عبارتی دیگر، اگر مصحح دوم حذف شود در واقع هیچ اتفاقی نخواهد افتاد.
اختلاف نمره مصححان با جنسیت آنها رابطه ندارد و عوامل سوگیری در تصحیح اوراق، ناشی از
تفاوت­های فردی مصححان نبوده، بلکه بیشتر مربوط به ساختار اجرایی و فرایند تصحیح اوراق امتحانی بوده است. از جمله اینکه این اوراق بدون فاصله زمانی توسط مصححان اول و دوم نمره­گذاری شده و همواره این روند از نظر مکانی و زمانی ثابت بوده است.
واحدی و فزون مهر (۱۳۸۴)، میزان انطباق سوالات امتحانات نهایی و داخلی سال سوم راهنمایی
را با شاخص­ های روان­سنجی در دروس ریاضی، جغرافیا، علوم تجربی و دینی مورد بررسی قرار دادند. جامعه آماری این تحقیق، اوراق امتحانی کلیه دانش ­آموزان شرکت کننده در امتحانات نهایی و داخلی سال تحصیلی ۸۳ – ۸۲ استان آذربایجان غربی است که تعداد آن ها به ۵۱۵۶۱ می­رسد که از این تعداد با بهره گرفتن از روش نمونه گیری تصادفی خوشه­ای، ۶۰۰ ورقه (۱۵۰ ورقه از هر درس نامبرده) انتخاب گردید. برای ارزشیابی این اوراق از لحاظ میزان رعایت اصول آزمون­سازی،۱۲ داور بعد از گذراندن یک دوره آموزشی به منظور رسیدن به توافق نسبی در معیارهای نمره­گذاری، از ” چک لیست ارزشیابی آزمون­های معلم ساخته ” استفاده کردند. نتایج به دست آمده از این تحقیق به صورت زیر می­باشد:
به غیر از سوالات ریاضی، اعتبار سوالات امتحانی سه ماده درسی بسیار پایین می­باشد. برای
محاسبه اعتبار از ضریب آلفای کرونباخ استفاده گردیده است.
روایی محتوایی سوالات امتحان نهایی و داخلی ریاضیات، علوم تجربی و جغرافیا در سطح بالا و
سوالات دینی در سطح متوسط بوده است.
سطح دشواری سوالات دروس علوم تجربی و ریاضی نسبتاً مناسب بوده، اما در دروس جغرافیا و
دینی به لحاظ دشواری، آزمون متمایل به ساده بودن می­باشد.
سوالات امتحان نهایی دروس مذکور از ضریب تمیز مناسب و قابل قبولی برخوردار است. ضریب
تمیز این سوالات با بهره گرفتن از ضریب دو رشته ای نقطه­ای محاسبه شده است.
در طراحی سوالات امتحانات نهایی و داخلی دروس دینی، علوم و جغرافیا تنها به سطوح دانش،
فهمیدن و کاربرد حیطه شناختی توجه شده است اما در بررسی سوالات درس ریاضی، سطح ترکیب نیز در نظر گرفته شده است.
به غیر از امتحان نهایی علوم تجربی، در طراحی سوالات دیگر امتحانات نهایی و داخلی، ملاک­های
فنی و ظاهری رعایت شده است.

موضوعات: بدون موضوع
[جمعه 1400-07-23] [ 01:38:00 ب.ظ ]