ارزیابی مدل از جنبههای مهم در توسعه هر نوع مدل یادگیری ماشین است. هدف نهایی هر مدل در پیشبینی خلاصه میشود و در نتیجه از «خطای میانگین مربعات» (Mean Squared Error | MSE) به عنوان معیار مناسبی برای سنجش کیفیت مدل استفاده میشود. معیاری که با میانگین گرفتن از تفاضل مقادیر حقیقی و پیشبینیشده، میزان خطای مدلهای آماری را اندازه میگیرید. در این مطلب از مجله فرادرس به پرسش خطای میانگین مربعات چیست پاسخ میدهیم و نحوه محاسبه آن را یاد میگیریم.
در این مطلب ابتدا یاد میگیریم خطای میانگین مربعات چیست و با چه فرمولی محاسبه میشود. سپس با چگونگی محاسبه خطای میانگین مربعات در نرمافزار اکسل آشنا میشویم و در انتهای این مطلب از مجله فرادرس به تفسیر این معیار اندازهگیری مهم میپردازیم.
خطای میانگین مربعات چیست؟
در حقیقت خطای میانگین مربعات یا MSE، فاصله خط «رگرسیونی» را با مجموعهای از نقاط داده اندازهگیری میکند. اگر مدل یادگیری ماشین بدون خطا باشد، MSE برابر با صفر خواهد بود. از خطای میانگین مربعات با عنوان «انحراف میانگین مربعات» (Mean Squared Deviation | MSD) نیز یاد میشود. این معیار با میانگین گرفتن از مربع کل خطاهای حاصل از دادهها بهدست میآید.
نزدیک بودن نقاط داده به خط رگرسیونی نشان دهنده خطای کمتر و در نتیجه کاهش MSE است. از طرف دیگر هرچه MSE بزرگتر باشد، یعنی فاصله نقاط از میانگین زیاد بوده و در نتیجه پراکنده هستند. به همین خاطر، با کاهش MSE عملکرد مدل بهبود یافته و پیشبینیهای دقیقتری حاصل میشود.
فرمول محاسبه خطای میانگین مربعات
خطای میانگین مربعات، به نوعی منعکس کننده توزیع متمرکز شده مقادیر داده است. توزیعی که فاقد انحراف بوده و مهمتر از همه و بهدلیل فاصله کم نقاط داده از میانگین، خطای کمتری نیز دارد. فرمول محاسبه MSE به شرح زیر است:
$$ MSE = frac{sum(y_i – hat{y_i})^2}{n} $$
شرح هر کدام از نمادهای استفاده شده در فرمول فوق عبارت است از:
- $$ y_i $$: مقدار حقیقی $$ i $$اُم.
- $$ hat{y_i} $$: مقدار پیشبینی شده متناظر.
- $$ n $$: تعداد کل نمونهها.
نحوه محاسبه MSE شباهت زیادی با «واریانس» دارد. تنها کافیست مقدار پیشبینی شده را از مقدار حقیقی کم کرده و مربع نتیجه را بهدست آوریم. فرایندی که باید برای همه نمونهها تکرار شود. در آخر مجموع مربعات همه مقادیر بر تعداد کل نمونهها تقسیم شده و مقدار MSE محاسبه میشود. توجه داشته باشید که صورت کسر برابر با مجموع خطاهای به توان دو رسیده است. مقداری که در الگوریتم «رگرسیون خطی» کمینه میشود.
چگونه رگرسیون را با فرادرس یاد بگیریم؟
رگرسیون یکی از پایهایترین و پرکاربردترین تکنیکهای یادگیری ماشین است. دو نوع مهم رگرسیون عبارتاند از رگرسیون خطی ساده و رگرسیون لجستیک. رگرسیون خطی ساده برای پیشبینی مقادیر پیوسته استفاده میشود، در حالی که رگرسیون لجستیک در مسائل طبقهبندی بهکار میرود. خطای میانگین مربعات (MSE) نقش کلیدی در رگرسیون دارد. این معیار به عنوان تابع هزینه در رگرسیون خطی استفاده میشود و میزان اختلاف بین مقادیر پیشبینی شده و مقادیر حقیقی را اندازهگیری میکند. رگرسیون یکی از الگوهای مهم در یادگیری ماشین است و کاربردهای گستردهای در حوزههای مختلف از جمله اقتصاد، مهندسی و علوم پزشکی دارد.
اگر مایل به یادگیری کاربردی و عمیقتر رگرسیون هستید، وبسایت فرادرس مجموعهای از فیلمهای آموزشی را در این زمینه تهیه و تولید کرده است که مشاهده آنها را به ترتیبی که در فهرست زیر آمده پیشنهاد میکنیم:
- فیلم آموزش رایگان رگرسیون خطی ساده فرادرس
- فیلم آموزش رایگان رگرسیون لجستیک در یادگیری ماشین فرادرس
- فیلم آموزش رایگان رگرسیون خطی و شبکه عصبی MLP در پایتون فرادرس
محاسبه خطای میانگین مربعات در اکسل
روزانه دادههای عددی بسیاری وارد نرمافزار «اکسل» میشوند که از طریق آنها و با امکاناتی که این نرمافزار در اختیار کاربران قرار داده است، میتوان خطای میانگین مربعات را محاسبه کرد. فرض کنید دادههای مربوط به فروش یک محصول خاص را طی همه ماههای سال در اختیار دارید. در ادامه این مطلب به شرح مراحل محاسبه MSE در این مثال میپردازیم. مطلب کاملتری درباره فرمولهای اکسل از مجله فرادرس منتشر شده است که با مراجعه به لینک زیر میتوانید آن را مطالعه کنید:
مرحله ۱
دادههای حقیقی و پیشبینی شده را در دو ستون مجزا وارد میکنیم و سپس با نوشتن فرمول [fdboutput]{“content”:”%3DROWS(Range%20of%20Values)”,”type”:”inline”}[/fdboutput]در بخش فرمولنویسی اکسل که با نماد $$ f_x $$ (دایره قرمز رنگ) مشخص شده است، تعداد کل نمونهها را محاسبه میکنیم:
مرحله ۲
بهازای هر سطر یا نمونه، مقدار مربعات خطا را محاسبه (مستطیل قرمز رنگ) و در ستونی با همین عنوان ذخیره میکنیم:
مرحله ۳
در انتها مطابق با فرمولی که پیشتر توضیح دادیم و با رنگ قرمز نیز در تصویر مشخص شده است، خطای میانگین مربعات بهدست میآید:
همانطور که در تصویر مشاهده میکنید، MSE بهطور تقریبی برابر با ۸/۱۷ است.
تفسیر خطای میانگین مربعات
تا اینجا بهخوبی میدانیم که معیار MSE برابر است با میانگین مربعات فاصلهای که میان مقادیر حقیقی و پیشبینی شده وجود دارد. از آنجا که در محاسبه MSE بهجای شکل ساده از مربع دادهها استفاده میشود، تفسیر آن کمی دشوار است. برای یادگیری بیشتر درباره انواع معیارهای کاربردی مانند MSE میتوانید فیلم آموزش مفاهیم آماری در داده کاوی فرادرس را از طریق لینک زیر دنبال کنید:
به توان دو رساندن تفاضل، دلایل مختلفی برای انجام دارد. از جمله اینکه مقادیر منفی حاصل از تفاضل، حذف شده و MSE همیشه مقداری برابر یا بزرگتر از صفر خواهد داشت. البته اغلب، معیار MSE عددی مثبت است. زیرا MSE زمانی برابر با صفر که مدل فاقد هر گونه خطا باشد. رخدادی که در عمل بعید است. همچنین با به توان دو رساندن حاصل تفاضل، تاثیر خطاهای بزرگتر نیز بیشتر میشود. به این معنی که هر چه خطا بزرگتر باشد، جریمه مدل نیز به همان میزان افزایش یافته و سریعتر از اشتباهات خود یاد میگیرد.
جمعبندی
در آمار و احتمال از MSE به عنوان تابع ریسکی یاد میشود که مربع خطاها را اندازه میگیرد. در این مطلب از مجله فرادرس با مفهوم خطای میانگین مربعات آشنا شدیم و یاد گرفتیم که چگونه محاسبه میشود. یکی از معیارهای کاربردی و رایج در یادگیری ماشین، بهویژه در مسائل رگرسیون و زمانی که از نرمال بودن توزیع متغیر هدف اطمینان داشته و میخواهید به اثربخشی خطاهای بزرگ بیفزایید.
نوشته خطای میانگین مربعات چیست و چگونه محاسبه می شود؟ – به زبان ساده اولین بار در فرادرس – مجله. پدیدار شد.
source