المپیادلب

در آزمون مرحله 2 چطور شانسی بزنیم؟! (بخش اول)

هدف

در این نوشته قصد داریم صحت تعدادی از دیدگاه های رایج در مورد شانسی زدن گزاره ها در مرحله 2 را براساس داده های واقعی بررسی کنیم! به عنوان مثال یکی از این دیدگاه ها این است که: “اگر جواب 4 گزاره را با اطمینان تعیین کرده باشیم، می توانیم جواب گزاره پنجم را براساس تعداد گزاره های غلط از 4 تای قبلی حدس بزنیم!”

روش کار

تعدادی از اعضای گروه تلگرامی المپیادلب داوطلب شدند و جواب های تمامی سوالات ص/غ دوره های 18 تا 22 را مطابق با پاسخنامه رسمی این آزمون ها جمع آوری کردند. در تمامی نمودار هایی که در ادامه آمده اند، 0 نشان دهنده گزاره غ و 1 نشان دهنده گزاره ص است. دقت کنید این آنالیزها فقط شرایطی را بررسی می کنند که از جواب 4 گزاره اطمینان دارید و 1 گزاره را شک دارید (مثلا گزاره های 1 و 2 و 4 و 5 را جواب دادید و در گزاره 3 شک دارید). دقت کنید که برای هر سوال تمامی پنج حالت اینکه کدام گزاره مشکوک باشد در نظر گرفته شده است. همچنین، در نمودارها منظور از کلمه statement، گزاره های سوالات است.

بخش اول – بررسی فراوانی سوالات مختلف بر اساس تعداد گزاره های غلط آن ها

در نمودار زیر، فراوانی تمامی سوالات دوره های 18 تا 22 از نظر تعداد گزاره های آن ها نشان داده شده است.

همانطور که مشاهده می کنید، سوالاتی که 2 یا 3 گزاره غلط دارند به مراتب از سایر سوالات فراوان تر بوده و 70 درصد سوالات را تشکیل می دهند.

می توان این نمودار ها را به تفکیک دوره نیز بررسی کرد:

به نظر می آید این روند در تمامی دوره ها کمابیش صادق است.

 

بخش دوم – بررسی احتمال غلط بودن گزاره بر اساس شماره گزاره مشکوک

در نمودار زیر تعداد گزاره های ص و غ براساس شماره گزاره را در کل سوالات می توانید ببینید.

واضحا مشاهده می شود که که تعداد ص/غ ها برای هر گزاره عملا 50/50 است. فقط هر چه به سمت گزاره های آخر می رویم، احتمال به مقدار بسیار کم به سمت غ منحرف می شود که از نظر آماری اهمیتی ندارد.

با این اوصاف، شاید بد نباشد ببینیم که آیا این افزایش احتمال غ بودن به سمت گزاره های آخر، در تمامی دوره ها صادق بوده است یا خیر.

همانطور که مشاهده می کنید، این روند کلی (و جزئی) مشاهده شده به هیچ برای تمامی دوره ها صادق نیست.

بخش سوم – بررسی احتمال غلط بودن گزاره پنجم بر اساس تعداد گزاره های غلط قبلی

در نمودار پایین، محور x نشان دهنده ی این است که از بین 4 گزاره ای که از جواب آن ها مطمئنید، چه تعدادی غ بوده اند. محور y هم نشان دهنده تعداد کل گزاره هایی است که با این شرایط جوابشان ص یا غ بوده است.

بر اساس این نمودار به نظر می آید که در هنگام روبرو شدن با گزاره مشکوک، اگر 2 یا 3 عدد از گزاره های قبلی غ بودند، احتمال غ بودن گزاره مشکوک کمی بیش از 50 درصد است.

حال اگر همین بررسی را به تفکیک دوره ها انجام دهیم نمودار زیر حاصل می شود:

همانطور که مشاهده میکنین، گرچه نتیجه گیری حاصل از نمودار قبلی کمابیش برای تمامی دوره ها صادق است، استئناهایی نیز وجود دارد. به خصوص در حالت “2 غ تا کنون” دوره 22 که احتمال ص بودن گزاره به صورت چشمگیری بیشتر بوده است.

ممکن است فکر کنیم که علاوه بر تعداد گزاره هایی که تا کنون غ بوده اند، شماره گزاره مشکوک هم مهم است. مثلا اگر گزاره شماره 5 را شک داشته باشیم، آیا احتمال ص بودن آن بیشتر است؟ نمودارهای زیر مشابه نمودار های قبلی بوده اما براساس شماره گزاره مشکوک تفکیک شده اند.

با توجه به نمودار به نظر می رسد در شرایطی که قابل پیش بینی ترین حالت، زمانی باشد که تاکنون 2تا از 4 گزاره قبلی غ بوده باشند و در گزاره های 2 یا 4 یا 5 مشکوک باشید!

حال می پرسید: “خب نمی شود همزمان هم دوره را لحاظ کرد هم شماره گزاره را؟” چرا می شود. اما نمی شود آن را تحلیل کرد :). این بخش را می گذارم بر عهده شما:

بخش چهارم – بهره گیری از هوش مصنوعی برای پیش بینی ص یا غ بودن گزاره!

بله ما که نتوانستیم، ببینیم کامپیوتر چه می کند! در اینجا از 3 الگوریتم که برای مشکل موجود مناسب هستند (یک binary classification) استفاده می کنیم که عبارتند از Logistic regression، Support vector machines (SVM) و Naive Bayes. در ابتدا نتایج مربوط به Logistic regression به عنوان ساده ترین روش را مشاهده کنیم. این مدل سعی می کند بر اساس شماره دوره، شماره گزاره، و تعداد گزاره هایی که تا کنون غلط بوده اند، ص یا غ بودن گزاره را پیش بینی کند.

ممکن است با نمودار بالا که یک نمودار Receiver operating curve (ROC) است آشنا باشید. اگر نباشید هم با اصطلاحات sensitivity (حساسیت) و specificity (ویژگی) استفاده شده در آن حتما آشنا هستید. در این نمودار، خط صاف وسط نشان دهنده حالتی است که شما به صورت کاملا شانسی تصمیم بگیرید. حال هر چقدر خط مربوط به مدل ما (خط تیره) از این خط صاف دورتر باشد، به معنی این است که مدل ما پیشبینی بهتری انجام می دهد (اصطلاح تخصصی آن این است که Area under the curve (AUC) بیشتری دارد). همانطور که مشاهده می کنید، مدل ما عملا تفاوتی با شانسی جواب دادن ندارد.

برای صرفه جویی در فضا و حوصله شما دیگر نمودارهای مربوط به SVM و Naive Bayes را نمی آورم اما بدانید که در آن ها نیز دقت (درصد پیشبینی صحیح) در هردو 53 درصد بوده است!

نتیجه گیری نهایی و عملی

1- به صورت عملی تحت هیچ شرایطی نمی توان بر اساس تعداد گزاره هایی که تا الان غلط بوده اند، نظری در مورد احتمال غ بودن گزاره بعدی داد و همچنان کاملا 50/50 است.

2- تنها تخمینی که می توان زد این است که اگر در امتحان جواب سوالات زیادی را بدانید، می توانید تعداد غلط های آن ها را در نظر گرفته و مطابق نمودار بخش اول تحلیل کنید. به خصوص در مورد سوالاتی که 0 یا 5 تا گزاره غلط دارند چرا که تعداد بسیار کمی از سوالات آزمون از این نوع خواهند بود (تا کنون در هیچ آزمونی بیش از 3 تا از این نوع سوالات نبوده است.)

3- خب! حال که نتیجه گرفتیم احتمال پیش بینی ص/غ بودن 50/50 است، باید به این سوال جواب داد با وجود این احتمال جواب بدهیم یا خیر که این مربوط به یک نوشته بعدی خواهد بود.

خروج از نسخه موبایل