۳۷ بازدید
آخرین بهروزرسانی: ۰۵ فروردین ۱۴۰۳
زمان مطالعه: ۸ دقیقه
یادگیری ماشین تا کنون در گستره عظیمی از زمینهها مانند موتورهای توصیهگر، خدمات درمانی، بازار سهام و مدیریت زنجیره تامین موفق بوده است. موفقیتی که از پیشرفتهای چشمگیر در منابع سختافزاری و همچنین ظهور عصر دادهها سرچشمه میگیرد. در حال حاضر، میتوانیم حجم زیادی از دادههای مورد استفاده را در الگوریتمهای پیچیده یادگیری ماشین جمعآوری و ذخیره کنیم. برای بهرهبرداری از این الگوریتمها و سپس پاکسازی و پیشپردازش، ابتدا لازم است تا درک مناسبی از انواع داده ها در یادگیری ماشین بهدست آوریم؛ زیرا تنها در آن زمان میتوانیم با استفاده از مدلهای کارآمد، الگوهای پنهان موجود را در دادهها شناسایی و به عملکرد قابل قبولی دست پیدا کنیم. در فرایند پیشپردازش، بهمنظور قابل فهم بودن برای کامپیوتر و همچنین یادگیری الگوها، ابتدا دادهها به شکل عددی خود تبدیل میشوند. در این مطلب از مجله فرادرس، با انواع داده ها در یادگیری ماشین آشنا میشویم؛ فرایندی که در نهایت به ما در شناسایی تکنیکهای پیشپردازش و تبدیل موثر دادهها کمک میکند.
در این مطلب، ابتدا با اهمیت یادگیری ماشین و همچنین نقش انواع دادهها آشنا میشویم. سپس یاد میگیریم «مجموعهداده» (Dataset) چیست و به شرح انواع داده ها در یادگیری ماشین میپردازیم. در انتهای این مطلب از مجله فرادرس نیز، چند نمونه از مشهورترین منابع دسترسی به مجموعهدادههای کاربردی را معرفی میکنیم.
اهمیت یادگیری ماشین در چیست؟
یادگیری ماشین یا «ماشین لرنینگ» (Machine Learning) زیرشاخهای از هوش مصنوعی است که به کامپیوترها یاد میدهد مانند انسان و با تکیه بر تجربیات گذشته فکر کنند. اغلب کارهایی که وابسته به دادههای از پیش تعریف شده یا مجموعهای از قواعد هستند را میتوان با بهرهگیری از یادگیری ماشین خودکارسازی کرد. در نتیجه، یادگیری ماشین به شرکتها این امکان را میدهد تا کارهایی مانند پاسخ دادن به تماسها، حسابداری و بررسی رزومه افراد که تا کنون تنها انسانها قادر به انجام آن بودهاند را به کامپیوترها واگذار کنند.
همچنین یادگیری ماشین قابلیت «مقایسپذیری» (Scalability) بالایی دارد؛ به این معنی که با پیچیدگی و بزرگی مساله تطبیق یافته و در کاربردهایی همچون شناسایی تصویر در اتومبیلهای خودران، پیشبینی موقعیت مکانی و زمانی بلایای طبیعی و تشخیص عوارض داروها مورد استفاده قرار میگیرد.
نقش انواع داده ها در یادگیری ماشین
در «تحلیل داده» (Data Analytics) علاوهبر استفاده از الگوریتمهای کارآمد برای بهبود مداوم عملکرد، دسترسی به دادههای با کیفیت نیز ضرورت دارد. درک نحوه کارکرد یادگیری ماشین، نیازمند شناخت دادهها میباشد و به همین خاطر، در ادامه به بررسی موضوعاتی همچون «مجموعهداده» (Dataset) و انواع داده ها در یادگیری ماشین میپردازیم.
مجموعه داده چیست؟
برای درک بهتر مفهوم مجموعهداده و همچنین تشریح انواع داده ها در یادگیری ماشین، ابتدا لازم است تا اجزاء مختلف مجموعهداده را بشناسیم. به هر سطر از کل مجموعهداده، یک «نمونه» (Instance) گفته میشود؛ در واقع هر مجموعهداده، کلکسیونی از نمونهها با یک ویژگی مشترک است. در کاربردهای حقیقی و بهطور معمول، از بیش از یک مجموعهداده به عنوان ورودی سیستمهای یادگیری استفاده میشود. مدلهای یادگیری ماشین، از طریق «مجموعه آموزشی» (Training Set) که قسمتی از مجموعهداده اصلی است، نحوه اجرای فعالیتهای مورد نظر را یاد میگیرند. پس از فرایند آموزش و برای اطمینان از تفسیر دقیق دادهها، عملکرد مدل یادگیری ماشین نسبت به قسمت دیگری از مجموعهداده با عنوان «مجموعه اعتبارسنجی» (Validation Set) یا «مجموعه آزمایشی» (Testing Set) مورد ارزیابی قرار میگیرد.
پس از آموزش دادن مدل با مجموعه آموزشی و اطمینان حاصل کردن از عملکرد آن در مقابل مجموعه اعتبارسنجی، سایر مجموعهدادههای گردآوری شده نیز به مدل یادگیری ماشین ارائه میشوند. هر چه مدل با دادههای بیشتری روبهرو شود، دقت آن در شناسایی درست نمونههای جدید افزایش پیدا میکند.
چگونه انواع داده ها را با فرادرس یاد بگیریم؟
درک انواع داده ها در حوزه یادگیری ماشین از اهمیت ویژهای برخوردار است. دادهها نقش محرک اصلی آموزش مدلهای یادگیری ماشین را بر عهده دارند و نوع آنها میتواند بر کیفیت و عملکرد این مدلها تاثیر بگذارد. برای شروع یادگیری انواع داده ها، ابتدا باید با دو دسته اصلی یعنی دادههای «عددی» و «طبقهبندی شده» (Categorical) آشنا شوید. دادههای عددی شامل مقادیر پیوسته و گسستهای هستند که در مسائلی مانند رگرسیون کاربرد دارند. از طرف دیگر، دادههای طبقهبندی شده به موجودیتها یا ویژگیهایی اشاره دارند که در دستهها یا گروههای مختلفی قرار گرفته و در مسائل «طبقهبندی» (Classification) بهکار میروند.
سپس لازم است تا با انواع دیگر دادهها از نظر نوع محتوا مانند دادههای «سری زمانی» (Time Series) و دادههای «متنی» آشنا شوید. توجه داشته باشید که هر کدام از انواع دادهها، ویژگی و کاربردهای خاص خود را دارد که شناخت آنها برای پیادهسازی مناسب الگوریتمهای یادگیری ماشین امری ضروری است. اگر به این مبحث علاقهمند هستید، میتوانید از فیلم های آموزشی فرادرس که در همین رابطه تهیه شدهاند بهره بگیرید. مشاهده این فیلم ها به ترتیبی که در ادامه آورده شده است به شما پیشنهاد میشود.
همچنین، چنانچه قصد دارید آموختههای خود را با استفاده از ابزارهایی مانند زبان برنامهنویسی پایتون، R و «متلب» (MATLAB) در حوزه یادگیری ماشین محک بزنید، میتوانید فیلم های آموزشی جامع و مرتبط فرادرس را از طریق لینکهای زیر مشاهده کنید.
انواع داده ها در یادگیری ماشین
با این وجود که داده میتواند شکلهای مختلفی داشته باشد، انواع داده ها در یادگیری ماشین به چهار گروه اصلی تقسیم میشوند. چهار گروه شامل دادههای «عددی»، دادههای «طبقهبندی شده»، «دادههای سری زمانی» و «دادههای متنی» که در ادامه این مطلب از مجله فرادرس، با هر کدام بیشتر آشنا میشویم.
داده های عددی
همانطور که از نام آن مشخص است، دادههای «Numerical» که با عنوان دادههای «کمی» (Quantitative) نیز شناخته میشوند، شامل نمونههایی هستند که ماهیت عددی دارند. نمونههایی که به عنوان بخشی از انواع داده ها در یادگیری ماشین بسیار کاربرد داشته و در قالب معیار اندازهگیری مانند قیمت خانه یا شمارش، مانند تعداد ساکنان محله یا تعداد خانههای به فروش رفته در سال گذشته، معنی و مفهوم پیدا میکنند. دادههای عددی به دو گروه «پیوسته» (Continuous) و «گسسته» (Discrete) تقیسم میشوند. برای دادههایی با نوع پیوسته، هر مقداری در یک بازه مشخص قابل پذیرش است؛ در حالی که، دادههای گسسته تنها شامل مقادیر متمایز یا همان اعداد حسابی میشوند.
به عنوان مثال، تعداد دانشجوهای یک کلاس از نوع گسسته است. چرا که تنها مقادیری مانند ۱۰، ۲۵ یا ۳۳، قابل قبول و منطقی هستند. کلاسی با تعداد ۱۲/۷۵ دانشجو وجود ندارد. یک دانشجو یا عضو کلاس هست یا نیست. از طرفی دیگر، دادههای پیوسته از هر عددی در یک بازه مشخص پشتیبانی میکنند. به عنوان مثال، ممکن است نمره دانشجویی ۸۸/۲۵ شده باشد؛ مقدار عددی که در بازه ۰ تا ۱۰۰ قرار دارد.
داده های طبقه بندی شده
این نوع از دادهها، یعنی دادههای طبقهبندی شده، برخی از ویژگیها را به نمایش میگذارند. مانند موقعیت مکانی یک بازیکن فوتبال، دادههای طبقهبندی شده نیز ممکن است شامل مقادیر عددی باشند. به عنوان مثال، اگر کلاس هدف ما شامل دو رنگ قرمز و آبی باشد، میتوانیم به ترتیب مقادیر عددی ۱ و ۲ را به هر کدام اختصاص دهیم. اما این اعداد، مفهوم ریاضیاتی نداشته و نمیتوانیم آنها را با یکدیگر جمع کرده یا میانگین بگیریم.
وقتی صحبت از برچسب کلاسی میشود، منظور همان دادههای طبقهبندی شده است. به عنوان مثال، زن یا مرد و همچنین مسکونی یا تجاری، دو مورد از برچسبهایی هستند که برای جنسیت و کاربرد ملک استفاده میشوند. همانند دادههای عددی، این دست از دادهها نیز به دو نوع «ترتیبی» (Ordinal) و «اسمی» (Nominal) تقسیم میشوند. دادههای ترتیبی، در واقع ترکیبی از دادههای عددی و طبقهبندی شده هستند. یکی از انواع داده ها در یادگیری ماشین که در آن، نمونهها هم ترتیب داشته و هم در گروههای مجزا قرار میگیرند. سطح کلاس که با عناوینی مانند «مبتدی»، «متوسط» و «پیشرفته» تعریف میشود، از جمله دادههای ترتیبی بهشمار میآید. به این صورت، علاوهبر مشخص بودن برچسبها، هر کلاس نیز مطابق با سطح دشواری مرتب میشود.
تنها تفاوت دادههای اسمی با دادههای ترتیبی در نبود نظم یا ترتیبی خاص است. کشور محل تولد و مدرک تحصیلی افراد، دو مورد از مثالهایی است که برای دادههای اسمی مطرح میشود.
داده های سری زمانی
دنبالهای از اعداد که در بازه زمانی مشخص و با فواصل منظم جمعآوری شدهاند، دادههای «سری زمانی» نام دارند. این قبیل از دادهها در کاربردهایی همچون امور مالی بسیاری حائز اهمیت هستند. همواره و برای دنبال کردن الگوهای تغییر، نوعی مقدار زمانی مانند تاریخ، به این نوع از دادهها پیوست شده است.
مسئله تعداد خانههای فروش رفته در سال را در نظر بگیرید. برخلاف نوع عددی، دادههای سری زمانی بر اساس زمان مرتب شدهاند. به بیان سادهتر، اولین و آخرین نمونه داده جمعآوری شده مشخص است.
داده های متنی
در حقیقت، دادههای «متنی» همان واژگان هستند. اغلب، اولین کاری که هنگام پردازش دادههای متنی انجام میشود، تبدیل نمونهها به معادل عددی آنها، با استفاده از نوعی تابع مانند «کیسه واژگان» (Bag of Words) است. هدف از کار با دادههای متنی، در فهم موضوع کلی متن و ارتباط میان واژگان مختلف یک جمله خلاصه میشود.
باید به این نکته توجه داشت که نوع الگوریتمهای استفاده شده در «مهندسی ویژگی» (Feature Engineering) و مدلسازی، وابستگی زیادی به نوع دادهها داشته و به همین خاطر، درک انواع داده ها در یادگیری ماشین، قدمی لازم و ضروری است. برای آشنایی بیشتر با انواع دادهها و بررسی شاخصهای آماری، مطالعه مطلب زیر را از مجله فرادرس پیشنهاد میکنیم.
منابع دسترسی به مجموعه داده ها
پس از آشنایی با انواع داده ها در یادگیری ماشین، باید برای مسئله مورد نظر خود بهدنبال مجموعهداده مناسب باشیم. امروزه منابع بسیاری برای دسترسی به مجموعهدادههای مختلف وجود دارد؛ اما در ادامه، به معرفی چهار مورد از مشهورترین این منابع میپردازیم.
موتور جستجوی مجموعه داده شرکت گوگل
شرکت «گوگل» (Google) در سپتامبر سال ۲۰۱۸، موتور جستجویی برای پیدا کردن مجموعهدادهها «+» منتشر کرد. از این ابزار میتوانید برای مشاهده گستره وسیعی از مجموعهدادهها در موضوعات مختلفی همچون آبوهوا و بازار مسکن استفاده کنید. پس از وارد کردن عبارت جستجو، مجموعهدادههای مرتبط همراه با اطلاعاتی از قبیل تاریخ انتشار، نوع دادهها و لینک مرجع به شما نمایش داده میشود. این موتور جستجو، ابزاری محبوب برای یافتن انواع مجموعه داده ها در یادگیری ماشین است.
مجموعه داده های شرکت مایکروسافت
شرکت مایکروسافت یکی دیگر از پیشتازان حوزه فناوری است که پایگاه دادهای رایگان از مجموعهدادهها، با عنوان Microsoft Research Open Data «+» ایجاد کرده است. این مجموعهدادهها در دسترس عموم قرار داشته و در زمینههایی مانند «پردازش زبان طبیعی» (Natural Language Processing | NLP) و «بینایی ماشین» کاربرد دارند. برای استفاده از این مجموعهدادهها، هم میتوانید آنها را دانلود کرده و هم بهطور مستقیم در پلتفرمهای ابری بارگذاری کنید.
مجموعه داده های شرکت آمازون
از «سرویسهای وب آمازون» به عنوان یکی از بزرگترین پلتفرمهای محاسبات ابری در جهان یاد میشود. از آنجا که حجم زیادی از دادهها بر روی سرورهای شرکت آمازون ذخیره شدهاند، مجموعهدادههای بسیاری نیز از طریق سرویس AWS «+» در دسترس هستند. استفاده از این ابزار آسان بوده و تنها با وارد کردن موضوع مجموعهدادهای که بهدنبال آن هستید، توصیفی کوتاه و دیگر اطلاعات مورد نیاز در اختیار شما قرار میگیرد.
مجموعه داده های UCI
دانشکده علوم کامپیوترِ دانشگاه کالیفرنیا، از طریق پایگاه دادهای با عنوان UCI Machine Learning Repository «+»، حجم عظیمی از اطلاعات را در اختیار عموم مردم قرار داده است. تعداد بیش از ۶۰۰ مجموعهداده، پایگاه داده UCI را به گزینهای محبوب در میان پژوهشگران حوزه یادگیری ماشین تبدیل کرده است. در این ابزار، نه تنها فرایند جستجو راحت است، بلکه مجموعهدادهها نیز بر اساس نوع مسئله یادگیری ماشین طبقهبندی شدهاند.
جمعبندی
توجه به داده در یادگیری ماشین بسیار مهم است؛ چرا که تنها پس از آشنایی با انواع دادهها و همچنین نحوه استفاده موثر از آنها است که به نتیجه مطلوب میرسیم. همانطور که در این مطلب از مجله فرادرس خواندیم، کار کردن با دادهها نیازمند کسب مهارت در زمینه علم داده و دارا بودن درک عمیقی از انواع داده ها در یادگیری ماشین است. دانشی که هر صنعتی را قادر میسازد تا علاوهبر تحلیل عملکرد کوتاهمدت، استراتژیهای بلندمدتی نیز برای بازدهی بیشتر توسعه دهد.
امیر حسین فقهی دانشآموخته کارشناسی ارشد مهندسی کامپیوتر است. از علاقهمندیهای او، یادگیری ماشین و برنامهنویسی است و مطالب مرتبط با هوش مصنوعی و توسعه نرمافزار را در مجله فرادرس نگارش میکند.
source