ارزیابی مدل از جنبه‌های مهم در توسعه هر نوع مدل یادگیری ماشین است. هدف نهایی هر مدل در پیش‌بینی خلاصه می‌شود و در نتیجه از «خطای میانگین مربعات» (Mean Squared Error | MSE) به عنوان معیار مناسبی برای سنجش کیفیت مدل استفاده می‌شود. معیاری که با میانگین گرفتن از تفاضل مقادیر حقیقی و پیش‌بینی‌شده، میزان خطای مدل‌های آماری را اندازه می‌گیرید. در این مطلب از مجله فرادرس به پرسش خطای میانگین مربعات چیست پاسخ می‌دهیم و نحوه محاسبه آن را یاد می‌گیریم.

در این مطلب ابتدا یاد می‌گیریم خطای میانگین مربعات چیست و با چه فرمولی محاسبه می‌شود. سپس با چگونگی محاسبه خطای میانگین مربعات در نرم‌افزار اکسل آشنا می‌شویم و در انتهای این مطلب از مجله فرادرس به تفسیر این معیار اندازه‌گیری مهم می‌پردازیم.

خطای میانگین مربعات چیست؟

در حقیقت خطای میانگین مربعات یا MSE، فاصله خط «رگرسیونی» را با مجموعه‌ای از نقاط داده اندازه‌گیری می‌کند. اگر مدل یادگیری ماشین بدون خطا باشد، MSE برابر با صفر خواهد بود. از خطای میانگین مربعات با عنوان «انحراف میانگین مربعات» (Mean Squared Deviation | MSD) نیز یاد می‌شود. این معیار با میانگین گرفتن از مربع کل خطاهای حاصل از داده‌ها به‌دست می‌آید.

مثال خط رگرسیونی
مثال خط رگرسیونی

نزدیک بودن نقاط داده به خط رگرسیونی نشان دهنده خطای کم‌تر و در نتیجه کاهش MSE است. از طرف دیگر هرچه MSE بزرگ‌تر باشد، یعنی فاصله نقاط از میانگین زیاد بوده و در نتیجه پراکنده هستند. به همین خاطر، با کاهش MSE عملکرد مدل بهبود یافته و پیش‌بینی‌های دقیق‌تری حاصل می‌شود.

فرمول محاسبه خطای میانگین مربعات

خطای میانگین مربعات، به نوعی منعکس کننده توزیع متمرکز شده مقادیر داده است. توزیعی که فاقد انحراف بوده و مهم‌تر از همه و به‌دلیل فاصله کم نقاط داده از میانگین، خطای کمتری نیز دارد. فرمول محاسبه MSE به شرح زیر است:

$$ MSE = frac{sum(y_i – hat{y_i})^2}{n} $$

شرح هر کدام از نمادهای استفاده شده در فرمول فوق عبارت است از:

  • $$ y_i $$: مقدار حقیقی $$ i $$اُم.
  • $$ hat{y_i} $$: مقدار پیش‌بینی شده متناظر.
  • $$ n $$: تعداد کل نمونه‌ها.

نحوه محاسبه MSE شباهت زیادی با «واریانس» دارد. تنها کافیست مقدار پیش‌بینی شده را از مقدار حقیقی کم کرده و مربع نتیجه را به‌دست آوریم. فرایندی که باید برای همه نمونه‌ها تکرار شود. در آخر مجموع مربعات همه مقادیر بر تعداد کل نمونه‌ها تقسیم شده و مقدار MSE محاسبه می‌شود. توجه داشته باشید که صورت کسر برابر با مجموع خطاهای به توان دو رسیده است. مقداری که در الگوریتم «رگرسیون خطی» کمینه می‌شود.

چگونه رگرسیون را با فرادرس یاد بگیریم؟

فیلم آموزش رگرسیون خطی ساده فرادرس
برای دسترسی به فیلم آموزش رگرسیون خطی ساده، روی تصویر کلیک کنید.

رگرسیون یکی از پایه‌ای‌ترین و پرکاربردترین تکنیک‌های یادگیری ماشین است. دو نوع مهم رگرسیون عبارت‌اند از رگرسیون خطی ساده و رگرسیون لجستیک. رگرسیون خطی ساده برای پیش‌بینی مقادیر پیوسته استفاده می‌شود، در حالی که رگرسیون لجستیک در مسائل طبقه‌بندی به‌کار می‌رود. خطای میانگین مربعات (MSE) نقش کلیدی در رگرسیون دارد. این معیار به عنوان تابع هزینه در رگرسیون خطی استفاده می‌شود و میزان اختلاف بین مقادیر پیش‌بینی شده و مقادیر حقیقی را اندازه‌گیری می‌کند. رگرسیون یکی از الگوهای مهم در یادگیری ماشین است و کاربردهای گسترده‌ای در حوزه‌های مختلف از جمله اقتصاد، مهندسی و علوم پزشکی دارد.

اگر مایل به یادگیری کاربردی و عمیق‌تر رگرسیون هستید، وب‌سایت فرادرس مجموعه‌ای از فیلم‌های آموزشی را در این زمینه تهیه و تولید کرده است که مشاهده آن‌ها را به ترتیبی که در فهرست زیر آمده پیشنهاد می‌کنیم:

  • فیلم آموزش رایگان رگرسیون خطی ساده فرادرس
  • فیلم آموزش رایگان رگرسیون لجستیک در یادگیری ماشین فرادرس
  • فیلم آموزش رایگان رگرسیون خطی و شبکه عصبی MLP در پایتون فرادرس

محاسبه خطای میانگین مربعات در اکسل

روزانه داده‌های عددی بسیاری وارد نرم‌افزار «اکسل» می‌شوند که از طریق آن‌ها و با امکاناتی که این نرم‌افزار در اختیار کاربران قرار داده است، می‌توان خطای میانگین مربعات را محاسبه کرد. فرض کنید داده‌های مربوط به فروش یک محصول خاص را طی همه ماه‌های سال در اختیار دارید. در ادامه این مطلب به شرح مراحل محاسبه MSE در این مثال می‌پردازیم. مطلب کامل‌تری درباره فرمول‌های اکسل از مجله فرادرس منتشر شده است که با مراجعه به لینک زیر می‌توانید آن را مطالعه کنید:

مرحله ۱

داده‌های حقیقی و پیش‌بینی شده را در دو ستون مجزا وارد می‌کنیم و سپس با نوشتن فرمول [fdboutput]{“content”:”%3DROWS(Range%20of%20Values)”,”type”:”inline”}[/fdboutput]در بخش فرمول‌نویسی اکسل که با نماد $$ f_x $$ (دایره قرمز رنگ) مشخص شده است، تعداد کل نمونه‌ها را محاسبه می‌کنیم:

دیتاست فروش با دو ستون مقادیر حقیقی و پیش بینی شده

مرحله ۲

به‌ازای هر سطر یا نمونه، مقدار مربعات خطا را محاسبه (مستطیل قرمز رنگ) و در ستونی با همین عنوان ذخیره می‌کنیم:

دیتاست فروش با ستون اضافه شده مربعات خطا

مرحله ۳

در انتها مطابق با فرمولی که پیش‌تر توضیح دادیم و با رنگ قرمز نیز در تصویر مشخص شده است، خطای میانگین مربعات به‌دست می‌آید:

دیتاست فروش پس از محاسبه خطای میانگین مربعات

همان‌طور که در تصویر مشاهده می‌کنید، MSE به‌طور تقریبی برابر با ۸/۱۷ است.

تفسیر خطای میانگین مربعات

تا اینجا به‌خوبی می‌دانیم که معیار MSE برابر است با میانگین مربعات فاصله‌ای که میان مقادیر حقیقی و پیش‌بینی شده وجود دارد. از آنجا که در محاسبه MSE به‌جای شکل ساده از مربع داده‌ها استفاده می‌شود، تفسیر آن کمی دشوار است. برای یادگیری بیشتر درباره انواع معیارهای کاربردی مانند MSE می‌توانید فیلم آموزش مفاهیم آماری در داده کاوی فرادرس را از طریق لینک زیر دنبال کنید:

نمودار نقطه ای با دو خط بر روی آن که نشان دهنده تفسیر خطای میانگین مربعات است

به توان دو رساندن تفاضل، دلایل مختلفی برای انجام دارد. از جمله اینکه مقادیر منفی حاصل از تفاضل، حذف شده و MSE همیشه مقداری برابر یا بزرگ‌تر از صفر خواهد داشت. البته اغلب، معیار MSE عددی مثبت است. زیرا MSE زمانی برابر با صفر که مدل فاقد هر گونه خطا باشد. رخدادی که در عمل بعید است. همچنین با به توان دو رساندن حاصل تفاضل، تاثیر خطاهای بزرگ‌تر نیز بیشتر می‌شود. به این معنی که هر چه خطا بزرگ‌تر باشد، جریمه مدل نیز به همان میزان افزایش یافته و سریع‌تر از اشتباهات خود یاد می‌گیرد.

جمع‌بندی

در آمار و احتمال از MSE به عنوان تابع ریسکی یاد می‌شود که مربع خطاها را اندازه می‌گیرد. در این مطلب از مجله فرادرس با مفهوم خطای میانگین مربعات آشنا شدیم و یاد گرفتیم که چگونه محاسبه می‌شود. یکی از معیارهای کاربردی و رایج در یادگیری ماشین، به‌ویژه در مسائل رگرسیون و زمانی که از نرمال بودن توزیع متغیر هدف اطمینان داشته و می‌خواهید به اثربخشی خطاهای بزرگ بیفزایید.

نوشته خطای میانگین مربعات چیست و چگونه محاسبه می شود؟ – به زبان ساده اولین بار در فرادرس – مجله‌. پدیدار شد.

source

توسط expressjs.ir