تحلیل رگرسیون روشی آماری برای بررسی ارتباط میان متغیر وابسته و یک یا چند متغیر مستقل است. معیار «ضریب تعیین» (Coefficient of Determination | R-squared) که گاهی با عنوان ضریب تشخیص نیز شناخته می‌شود، از جمله رایج‌ترین تکنیک‌هایی است که برای تحلیل رگرسیون خطی مورد استفاده قرار می‌گیرد. در این مطلب از مجله فرادرس با بررسی و شرح جنبه‌های مختلف این معیار ارزیابی مهم، یاد می‌گیریم ضریب تعیین چیست و چگونه محاسبه می‌شود. معیاری که بهره‌گیری از آن برای تشخیص عملکرد مدل رگرسیون در مقابل داده‌های جدید بسیار حائز اهمیت است.

فهرست مطالب این نوشته
997696

در این مطلب ابتدا یاد می‌گیریم ضریب تعیین چیست و چه نقشی در ارزیابی برازش مدل‌های رگرسیون دارد. سپس به معرفی فرمول محاسبه ضریب تعیین یا R-squared می‌پردازیم و علاوه‌بر آشنایی با نحوه به تصویر کشیدن و همچنین مفهوم ضریب تعیین تعدیل شده، تفسیری از انواع مقادیر بالا و پایین ضریب تعیین ارائه می‌دهیم. در انتها این مطلب از مجله فرادرس از محدودیت‌ها و نکاتی برای بهبود ضریب تعیین می‌گوییم و به تعدادی از سوالات متداول درباره این معیار ارزیابی پاسخ می‌دهیم.

منظور از ضریب تعیین چیست؟

ضریب تعیین یا R-squared معیاری برای سنجش عملکرد مدل‌های رگرسیونی است. در حقیقت ضریب تعیین عددی است که نسبت پراکندگی یا واریانس قابل پیش‌بینی برای متغیر یا متغیرهای مستقل را در متغیر وابسته نشان می‌دهد. به بیان ساده‌تر، ضریب تعیین نشان دهنده توانایی مدل رگرسیون (متغیر مستقل) در پیش‌بینی خروجی حاصل از داده‌های مشاهده شده (متغیر وابسته) است. دامنه ضریب تعیین از ۰ تا ۱۰۰ درصد متغیر بوده و زمانی برابر با ۱۰۰ می‌شود که مدل به‌طور کامل بر دیتاست ورودی برازش شده باشد.

یک نمودار نقطه ای ساده که نشان دهنده معیار ضریب تعیین است

ارزیابی برازش در مدل رگرسیون

در ادامه پاسخ دادن به پرسش ضریب تعیین چیست، باید به این نکته اشاره کنیم که هدف از به‌کارگیری معیارهایی مانند ضریب تعیین، ارزیابی برازش مدل‌های یادگیری ماشین است. به عنوان مثال در رگرسیون خطی، از معادله‌ای استفاده می‌شود که کوچک‌ترین فاصله یا تفاضل را میان مقادیر حقیقی و پیش‌بینی شده تولید کند. از نظر متخصصان علم آمار، مدلی به‌خوبی بر داده‌ها برازش شده است که در آن، فاصل میان مقادیر حقیقی و پیش‌بینی شده کم و بدون سوگیری باشد. منظور از «بدون سوگیری» این است که مقادیر برازش شده، فاصله بیش از حد زیاد یا کمی در فضای ویژگی نداشته باشند و در دسته نمونه‌های پرت قرار نگیرند.

مثالی ساده از یک نمودار نقطه ای با خط رگرسیونی که بیانگر یک مدل رگرسیون است

با این حال، پیش از سنجش معیارهای عددی مانند ضریب تشخیص، لازم است ابتدا «نمودارهای باقیمانده» (Residual Plots) رسم و تجزیه و تحلیل شوند. با رسم نمودارهای مرتبط، فرایند تشخیص الگوهای مشکل‌ساز در مدل، به مراتب راحت‌تر از بررسی مقادیر عددی خواهد بود. نتایج مدلی که سوگیری داشته باشد قابل اتکا نیست و این موضوع تنها با رسم نمودار و سپس بهره‌گیری از معیارهای ارزیابی مانند ضریب تعیین مشخص می‌شود.

چگونه رگرسیون را با فرادرس یاد بگیریم؟

مجموعه فیلم های آموزش آمار و احتمالات فرادرس
برای دسترسی به مجموعه فیلم‌های آموزش آمار و احتمالات، روی تصویر کلیک کنید.

رگرسیون یکی از مهم‌ترین تکنیک‌های آماری و یادگیری ماشین است که برای مدل‌سازی و تحلیل روابط بین متغیرها به‌کار گرفته می‌شود. در واقع، رگرسیون به ما کمک می‌کند تا بفهمیم چگونه یک یا چند متغیر مستقل می‌توانند بر یک متغیر وابسته تأثیر بگذارند. این الگوریتم در حوزه‌های مختلفی از جمله اقتصاد، علوم اجتماعی، پزشکی و مهندسی کاربرد دارد.

موضوع این مطلب یعنی ضریب تعیین یکی از معیارهای کلیدی برای ارزیابی مدل‌های رگرسیون است. این معیار نشان می‌دهد که مدل تا چه حد قادر است تغییرات متغیر وابسته را پیش‌بینی کند. در ارزیابی مدل‌های رگرسیون، R2 R^2 به عنوان یک شاخص مهم در نظر گرفته می‌شود. چرا که با بهره‌گیری از آن متوجه می‌شویم که مدل چقدر دقیق است و تا چه حد می‌توان به پیش‌بینی‌ها اعتماد کرد. به عنوان مثال، ضریب تعیین در تحلیل داده‌های مالی، پیش‌بینی الگو رفتاری بازار و ارزیابی تاثیرات یک رویه پزشکی، حاوی اطلاعات ارزشمندی است.

برای یادگیری بهتر رگرسیون، پیشنهاد می‌کنیم از مجموعه فیلم‌های آموزشی فرادرس که توسط اساتید مجرب در این حوزه تهیه شده است استفاده کنید. با مشاهده این دوره‌ها که از طریق لینک‌های زیر در دسترس شما هستند، می‌توانید رگرسیون را از سطح مقدماتی تا پیشرفته یاد بگیرید:

فرمول محاسبه ضریب تعیین

حالا که می‌دانیم ضریب تعیین چیست و چه نقشی در ارزیابی عملکرد مدل‌های رگرسیونی دارد، در این بخش با فرمول و نحوه محاسبه این معیار ارزیابی آشنا می‌شویم. ضریب تعیین، میزان پراکندگی نقاط داده را اطراف خط رگرسیونی بررسی می‌کند. هرچه ضریب تعیین بزرگ‌تر باشد یعنی فاصله میان مقادیر حقیقی و پیش‌بینی شده کمتر است. درصدی از پراکندگی متغیر وابسته را که برای مدل خطی قابل پیش‌بینی است ضریب تعیین گویند. فرمول محاسبه ضریب تعیین به شرح زیر است:

فرمول ضریب تعیین
فرمول ضریب تعیین

مقدار ضریب تعیین همیشه چیزی بین ۰ و ۱۰۰ درصد است. اگر ضریب تعیین برابر با ۰ باشد، یعنی مدل قادر به پیش‌بینی تغییرات متغیر وابسته در اطراف میانگین نیست. از طرف دیگر، ضریب تعیین مساوی ۱۰۰، یعنی مدل رگرسیون می‌تواند تمام تغییرات متغیر وابسته یا هدف را شناسایی کند. به‌طور معمول هر چقدر R2 R^2 بزرگ‌تر باشد یعنی مدل بهتر برازش شده است.

مصورسازی ضریب تعیین

تا اینجا می‌دانیم ضریب تعیین چیست و همچنین چگونه محاسبه می‌شود. اما در ادامه و برای به تصویر کشیدن نحوه عملکرد ضریب تعیین، می‌توانیم خط رگرسیونی برازش شده را مطابق با داده‌های دیتاست ترسیم کنیم.

مقایسه ضریب تعیین پایین و بالا
مقایسه ضریب تعیین پایین و بالا

در تصویر بالا، ضریب تعیین برای مدل رگرسیون سمت چپ برابر با ۱۵ درصد و برای مدل سمت راست ۸۵ درصد است. زمانی یک مدل رگرسیونی قادر به پیش‌بینی نسبت بالایی از واریانس است که نقاط داده به خط برازش شده نزدیک‌تر باشند. در عمل هیچگاه شاهد مدلی با ضریب تعیین ۱۰۰ درصد نخواهید بود. در چنین شرایطی، مقادیر پیش‌بینی شده با حقیقی برابر بوده و همه نمونه‌ها دقیقا روی خط قرار می‌گیرند. مطلب جامعی درباره مصورسازی داده در مجله فرادرس نگارش شده است که می‌توانید آن را با مراجعه به لینک زیر مطالعه کنید:

ضریب تعیین و ضریب تعیین تعدیل شده

کاربرد معیار R-squared یا ضریب تعیین به مدل‌های رگرسیون خطی ساده با تنها یک متغیر خلاصه می‌شود. در نتیجه اگر مسئله از نوع رگرسیون چندگانه با چند متغیر مستقل باشد، لازم است تا ضریب تعیین نیز با مسئله تطبیق پیدا کند. گاهی تعداد زیاد متغیرها باعث بیش‌برازش مدل و افزایش ضریب تعیین می‌شود. اما ضریب تعیین تعدیل شده تنها زمانی افزایش پیدا می‌کند که متغیرهای جدید، نقشی در بهبود دقت مدل داشته باشند.

دو نمودار میله ای که نشان دهنده ضریب تعیین و ضریب تعیین تعدیل شده هستند

تفسیر مقادیر بالا و پایین

ضریب تعیین، اطلاعاتی از برازش مدل بر داده‌های دیتاست در اختیار ما قرار نمی‌دهد. ممکن است ضریب تعیین پایین، اما عملکرد مدل خوب باشد. از طرف دیگر، ممکن است مدل سوگیری داشته اما ضریب تعیین عدد بالایی را نشان دهد. به‌طور کلی، بالا یا پایین بودن ضریب تعیین بسیار به نوع مسئله و داده‌ها بستگی دارد. برای مثال، پیش‌بینی توزیع و پراکندگی داده‌های مربوط به رفتار انسان، بسیار دشوارتر از موضوعی مانند پیش‌بینی شرایط محیطی است. بنابراین و در چنین کاربردهایی، امکان دارد ضریب تعیین کمتر از ۵۰ درصد باشد. زمانی ضریب پایین مشکل‌ساز می‌شود که حد آستانه بالایی برای پیش‌بینی‌ها مشخص کرده باشید. برای یادگیری و آشنایی عملی با نحوه پیش‌بینی در یادگیری ماشین، می‌توانید فیلم آموزش پیش‌بینی با الگوریتم‌های یادگیری ماشین فرادرس را که لینک آن در بخش زیر قرار گرفته است مشاهده کنید:

بالا بودن ضریب تعیین به تنهایی معیار مناسبی برای نتیجه‌گیری در مورد عملکرد مدل نیست. به عنوان مثال دو نمودار زیر را در نظر بگیرید. در این مثال، مدل بر اساس دو متغیر «جابه‌جایی» و «تراکم» ذرات الکترون، بر داده‌ها برازش شده است.

نمودار مقایسه ضرایب تعیین

مطابق با آنچه نمودار سمت چپ در تصویر بالا نشان می‌دهد، ضریب تعیین برابر با ۹۸/۵ درصد است. اما در نمودار سمت راست شاهد فاصله زیادی بین مقادیر حقیقی و پیش‌بینی شده هستیم. مدلی فاقد سوگیری است که پراکندگی مقادیر در نمودار (سمت راست)، تصادفی و نزدیک به صفر باشد. در غیر این‌صورت، مقدار بالا R2 R^2 تضمینی برای برازش و عملکرد خوب مدل نیست. چنین مشکلی از کمبود متغیرهای مستقل همچون عبارات چندجمله‌ای نشات می‌گیرد و راه‌حل آن نیز اضافه کردن متغیرهای جدید یا برازش یک مدل غیر خطی است. همچنین وجود شرایطی مانند بیش‌برازش و داده کاوی می‌تواند به‌طور مصنوعی ضریب تعیین را افزایش داده و در حالی که مدل بر داده‌ها برازش نیست، نتایج نادرست و اشتباهی برداشت شود.

در نتیجه برای ارزیابی میزان تاثیرگذاری و عملکرد مدل، باید علاوه‌بر ضریب تعیین، شاخص‌های دیگری نیز مانند نمودارهای آماری مورد بررسی قرار بگیرند.

محدودیت های ضریب تعیین

ضریب تعیین بر اساس تغییرات متغیر مستقل، تخمینی از تغییرات متغیر وابسته ارائه می‌دهد. اگرچه، نه خوب یا بد بودن مدل را تعیین می‌کند و نه حاوی اطلاعاتی درباره جهت‌دار بودن یا نبودن پیش‌بینی‌ها است. همان‌طور که در بخش قبل نیز اشاره کردیم، بالا یا پایین بودن ضریب تعیین به تنهایی برای انتخاب مدل رگرسیون مناسب با مسئله کافی نیست. شاید R2 R^2 پایین، اما عملکرد مدل خوب باشد یا علارغم ضریب تعیین بالا، مدل به‌خوبی برازش نشده باشد.

نکاتی برای بهبود ضریب تعیین

بهبود ضریب تعیین اغلب نیازمند راهکاری هوشمندانه برای بهینه‌سازی مدل است. به عنوان مثال، انتخاب و مهندسی ویژگی از جمله این رویکردها به شمار می‌روند. مدل یادگیری ماشین زمانی قادر به درک روابط و الگوهای میان‌داده‌ای است که تنها ویژگی‌های تاثیرگذار شناسایی و انتخاب شوند. فرایندی که برای انتخاب مجموعه متغیرهای بهینه و از طریق «تحلیل داده اکتشافی» (Exploratory Data Analysis | EDA) یا تکنیک‌هایی همچون «رگرسیون گام به گام»‌ (Stepwise Regression) و «منظم‌سازی» (Regularization) قابل انجام است.

فردی در حال کار با لپ تاپ که بیانگر نکاتی برای بهبود ضریب تعیین است

حل مشکل «همخطی چندگانه»‌ (Multicollinearity) رویکردی دیگر برای ارتقا ضریب تعیین است. این مشکل زمانی رخ می‌دهد که همبستگی متغیرهای مستقل به یک‌دیگر زیاد باشد و در نتیجه، علاوه‌بر تحت تاثیر قرار گرفتن ضریب تعیین، عملکرد مدل نیز تضعیف می‌شود. بهره‌گیری از روش‌هایی مانند «تحلیل عامل تورم واریانس» (Variance Inflation Factor Analysis) یا «تحلیل مؤلفه اصلی» (Principal Component Analysis | PCA) در تشخیص و تعدیل همخطی چندگانه موثر است.

با تغییر مشخصات مدل و ایجاد رابطه غیر خطی میان متغیرها نیز می‌توان ضریب تعیین را بهبود داد. برای نمونه، می‌توان ویژگی‌هایی با مرتبه بالاتر در نظر گرفت و به شیوه موثرتری الگوهای پنهان را در دیتاست کشف کرد. البته نباید فراموش شود که گاهی دانش زمینه مرتبط هم بسیار در رسیدن به چنین بینشی کارساز است.

رگرسیون و معیارهایی مانند ضریب تعیین تنها بخشی از دنیای وسیع یادگیری ماشین هستند. اگر قصد حرفه‌ای شدن و آغاز مسیر شغلی موفقی را در زمینه یادگیری ماشین دارید، لازم است تا مهارت‌های خود را به صورت پروژه‌محور و کاربردی توسعه دهید. یکی از بهترین ابزارها برای این منظور، زبان برنامه‌نویسی پایتون است که به دلیل قابلیت‌های گسترده، کتابخانه‌های متنوع و جامعه بزرگ کاربری، برای پیاده‌سازی الگوریتم‌های یادگیری ماشین بسیار مناسب است.

برای آنکه بتوانید به طور کامل و جامع یادگیری ماشین را بیاموزید و در پروژه‌های عملی از آن استفاده کنید، مشاهده مجموعه‌ای از فیلم‌های آموزشی فرادرس را به ترتیبی که در ادامه آورده شده است به شما توصیه می‌کنیم:

سوالات متداول

حالا که به‌خوبی می‌دانیم ضریب تعیین چیست، در این بخش به چند مورد از پرسش‌های متداول که ممکن است هنگام یادگیری و حتی زمان استفاده از ضریب تعیین با آن‌ها مواجه شوید پاسخ می‌دهیم.

تعدادی علامت سوال که نشان دهنده سوالات متداول درباره ضریب تعیین است

ضریب تعیین یا تشخیص حاوی چه اطلاعاتی است؟

ضریب تعیین یا R-squared بیانگر نسبتی از واریانس در متغیر وابسته است که به وسیله متغیرهای مستقل پیش‌بینی می‌شود. این معیار ارزیابی در حقیقت کیفیت برازش مدل را بر داده‌های جدید اندازه می‌گیرد و مشخص می‌کند که پیش‌بینی‌های مدل تا چه حد به داده‌های حقیقی نزدیک هستند.

آیا ضریب تعیین منفی می‌شود؟

خیر. همان‌طور که پیش‌تر نیز توضیح دادیم، دامنه ضریب تعیین در محدوده ۰ تا ۱۰۰ درصد یا ۰ تا ۱ قرار دارد. اگر ضریب تعیین برابر با ۰ باشد، یعنی تراکم موجود در متغیر وابسته برای متغیر یا متغیرهای مستقل قابل پیش‌بینی نیست و اگر ۱ باشد، نشان دهنده برازش کامل مدل بر داده‌ها است.

علت پایین بودن ضریب تعیین چیست؟

مقدار پایین ضریب تعیین، نشان دهنده ناتوانی متغیرهای مستقل در توضیح و درک پراکندگی موجود در متغیر هدف است. کمبود متغیرهای مناسب یا روابط غیر خطی میان داده‌ها، از جمله عواملی هستند که توسط مدل قابل تشخیص نبوده و امکان دارد به ضریب تعیین پایین ختم شوند.

چه مقداری از ضریب تعیین «مناسب» است؟

زمانی می‌توان از عبارت «مناسب» برای ضریب تعیین استفاده کرد که کاربرد و نوع مسئله در نظر گرفته شده باشد. در برخی از حوزه‌ها مانند علوم اجتماعی، حتی ضریب تعیین به نسبت پایین مانند ۰/۵ هم مناسب است. اما این استاندارد برای همه کاربردها یکسان نبوده و گاهی فقط ضرایب بیشتر از ۰/۹ مورد بررسی قرار می‌گیرند. برای مثال در زمینه امور مالی، ضریب تعیین بیش از ۰/۷، نوعی همبستگی بالا را نشان می‌دهد و اگر کمتر از ۰/۴ باشد، یعنی همبستگی میان متغیرها پایین است.

جمع‌بندی

به‌طور خلاصه، ضریب تعیین از جمله معیارهای ارزیابی پر استفاده است که در زمینه‌های متنوعی کاربرد دارد. در این مطلب از مجله فرادرس یاد گرفتیم ضریب تعیین چیست و چگونه با کمک آن می‌توانیم میزان تاثیرگذاری یک یا چند متغیر مستقل را بر متغیر وابسته اندازه بگیریم. با وجود همه مزیت‌ها، ضریب تشخیص محدودیت‌هایی نیز دارد که باید هنگام انتخاب معیار ارزیابی و بسته به نوع مسئله به آن‌ها توجه شود.

source

توسط expressjs.ir