اگر مدت زمان زیادی را صرف تجزیه و تحلیل دیتاست‌ها کرده باشید، حتما می‌دانید که در نهایت به علم آمار نیاز پیدا می‌کنید. آمار زیرشاخه‌ای از علم ریاضیات است که شامل جمع‌آوری، طبقه‌بندی، تحلیل، تفسیر و ارائه حقایق و اطلاعات عددی می‌شود و بسیار مناسب مسائلی است که با جمعیت‌های بالا و یا معیارهای اندازه‌گیری پیچیده سر و کار دارند. با بهره‌گیری از علم آمار می‌توان تنها با در اختیار داشتن نمونه کوچکی از دیتاست، به اطلاعات و نتایج مهمی دست یافت. در این میان، آمار توصیفی به رویکردی اشاره دارد که ویژگی‌های یک دیتاست را خلاصه و مرتب می‌کند. در این مطلب از مجله فرادرس یاد می‌گیریم آمار توصیفی چیست، چه کاربردی دارد و از چه انواعی تشکیل شده است. بخشی از علم آمار و احتمال که نقش مهمی در توصیف صفات یک متغیر یا ارتباط میان دو متغیر ایفا می‌کند.

فهرست مطالب این نوشته
997696

در این مطلب ابتدا یاد می‌گیریم آمار توصیفی چیست، چه کاربردی داشته و از چه انواعی تشکیل شده است. سپس به بررسی تفاوت میان داده‌های تک متغیر و دو متغیره می‌پردازیم. در انتها این مطلب از مجله فرادرس به نقش تکنیک‌های مصورسازی و نمونه‌های پرت در آمار توصیفی اشاره داشته و از تفاوت آمار استنباطی با آمار توصیفی می‌گوییم.

تعریف آمار توصیفی چیست؟

زیرشاخه‌ای از علم آمار که به خلاصه‌سازی، سامان‌دهی و ارائه معنادار داده‌ها می‌پردازد. تمرکز آمار توصیفی بر شرح و بررسی ویژگی‌های اصلی یک دیتاست بدون هیچ‌گونه تعمیم به جامعه آماری بزرگ‌تر است. به بیان ساده، هدف از آمار توصیفی را می‌توان در ارائه خلاصه‌ای قابل فهم از داده‌ها، فراهم کردن امکان تجزیه و تحلیل و درک الگوها و توزیع دیتاست تعریف کرد. چکیده یا خلاصه‌ای که متشکل از «شاخص‌های مرکزی» (Central Tendency) همچون میانگین، میانه و نما، «شاخص‌های پراکندگی» (Variability) مانند دامنه، واریانس و انحراف معیار و همچنین شکل توزیع از جمله «چولگی» (Skewness) و «کشیدگی» (Kurtosis) است.

فردی ایستاده روی یک کوه در حال نگاه کردن به نمودارهای آماری که نشان دهنده تعریف آمار توصیفی است

از طرف دیگر، در آمار توصیفی از شمایل گرافیکی مانند نمودار، گراف و جدول برای مصورسازی و تفسیر دقیق‌تر اطلاعات استفاده می‌شود. به عنوان برخی از تکنیک‌های گرافیکی رایج می‌توان به نمودار هیستوگرام، «میله‌ای» (Bar chart)، «دایره‌ای» (Pie chart)، «نقطه‌ای» (Scatter plot) و «جعبه‌ای» (Box plot) اشاره داشت. محققان با بهره‌گیری از آمار توصیفی می‌توانند علاوه بر درک بهتر داده‌ها، فرایند تصمیم‌گیری را تسهیل و میان اجزا کلیدی دیتاست ارتباط برقرار کنند. حالا که می‌دانیم منظور از آمار توصیفی چیست، در بخش بعد یاد می‌گیریم که اغلب در چه مواردی از آمار توصیفی استفاده می‌شود.

کاربرد آمار توصیفی

همان‌طور که پیش‌تر نیز توضیح دادیم، آمار توصیفی با ارائه خلاصه‌ای کوتاه از نمونه‌های داده، به شرح و بررسی موثر ویژگی‌های یک دیتاست کمک می‌کند. شناخته شده‌ترین انواع آمار توصیفی را شاخص‌های مرکزی تشکیل می‌دهند. برای مثال سه معیار میانگین، میانه و نما در اغلب سطوح ریاضی و آمار کاربرد داشته و در تعریف و همچنین توصیف مجموعه داده نقش دارند. برای محاسبه معیار میانگین ابتدا مجموع داده‌ها به‌دست آمده و سپس نتیجه بر تعداد کل نمونه‌های دیتاست تقسیم می‌شود. در دیتاستی با عناصر ۲، ۳، ۴، ۵ و ۶، مجموع ۲۰ و میانگین برابر با ۴ است.

فردی در حال کار کردن با لپ تاپ همراه با نشانه های آماری اطراف او که بیانگر کاربرد آمار توصیفی است

از طرفی نما یا Mode به مقداری با بیشترین تکرار گفته می‌شود و میانه عنصری است که مقادیر دامنه بالا و پایین دیتاست را از هم جدا کرده و در میانه دیتاست قرار دارد. علاوه بر این موارد، شاخص‌های مهم دیگری نیز وجود دارند که کمتر شناخته شده هستند. عمده استفاده از آمار توصیفی در ساده‌سازی الگوهای پیچیده و کمی دیتاست خلاصه می‌شود. نقشی که به عنوان مثال معدل دانش‌آموزان در توصیف سطح علمی آن‌ها ایفا می‌کند. در حقیقت ایده معدل به این شرح است که از نمرات دروس مختلف میانگین گرفته شده و درک جامعی از عملکرد تحصیلی دانش‌آموزش به‌دست می‌آید.

چگونه مصورسازی داده را با فرادرس یاد بگیریم؟

مجموعه فیلم های آموزش مصورسازی داده با پایتون فرادرس
برای دسترسی به مجموعه فیلم‌های آموزش مصورسازی داده با پایتون، روی تصویر کلیک کنید.

همان‌طور که تا اینجا یاد گرفتیم، آمار توصیفی شاخه‌ای از علم آمار است که به توصیف و خلاصه‌سازی مجموعه داده‌ها می‌پردازد. این شاخه با استفاده از روش‌های مختلف مانند محاسبه میانگین، میانه، دامنه و انحراف معیار، ویژگی‌های اصلی داده‌ها را مشخص می‌کند. هدف اصلی آمار توصیفی، ارائه تصویری کلی و قابل فهم از دیتاست‌های پیچیده است. در این میان، مصورسازی داده‌ها نقش حیاتی در آمار توصیفی ایفا می‌کند. مصورسازی، فرایند تبدیل داده‌های خام به شمایل گرافیکی مانند نمودار و جدول است. این روش به ما امکان می‌دهد تا الگوها و ارتباطات پنهان میان داده‌ها را به سرعت شناسایی کنیم.

در همین جهت، پایتون به عنوان یکی از مهم‌ترین و پرکاربردترین ابزارها برای مصورسازی داده‌ها شناخته می‌شود. این زبان برنامه‌نویسی با کتابخانه‌های قدرتمندی مانند Seaborn و PyQtGraph، امکانات گسترده‌ای را برای ایجاد انواع نمودارها و گراف‌های پیشرفته فراهم می‌کند.

اگر علاقه‌مند به یادگیری مصورسازی داده‌ها هستید، مجموعه فیلم‌های آموزش مصورسازی فرادرس که لینک آن در بخش زیر قرار گرفته است، می‌تواند نقطه شروع بسیار خوبی باشد. این دوره‌ها با رویکردی عملی و کاربردی، شما را با اصول مصورسازی داده‌ها و نحوه استفاده از ابزارهای پایتون برای این منظور آشنا می‌کنند. از مفاهیم پایه تا تکنیک‌های پیشرفته، با کمک این مجموعه آموزشی می‌توانید مهارت‌های لازم را برای تبدیل داده‌های پیچیده به تصاویر گویا و جذاب کسب کنید:

انواع آمار توصیفی

تا اینجا یاد گرفتیم آمار توصیفی چیست و به چه منظور مورد استفاده قرار می‌گیرد. با این حال، همان‌طور که پیش‌تر نیز به آن اشاره شد، آمار توصیفی را می‌توان به سه دسته شاخص‌های پراکندگی، شاخص‌های مرکزی و توزیع تقسیم کرد. در ادامه این بخش، توضیحات بیشتری در مورد هر کدام از این شاخص‌ها ارائه می‌دهیم.

انواع آمار توصیفی به صورت نموداری
انواع آمار توصیفی

شاخص های پراکندگی

در این روش، میزان پراکندگی توزیع داده‌ها مورد سنجش و بررسی قرار می‌گیرد. به عنوان مثال، شاخص‌های مرکزی نمی‌توانند شکل توزیع داده‌ها را توصیف کنند. بنابراین اگر میانگین ۶۵ از ۱۰۰ باشد، همچنان امکان وجود نقاط داده با مقادیری همچون ۱ و ۱۰۰ وجود دارد. شاخص‌های پراکندگی با توصیف شکل و گستردگی دیتاست به رفع این مشکل کمک می‌کنند. دامنه، چارک، واریانس و انحراف مطلق، همه مثال‌هایی از شاخص‌های پراکندگی هستند.

دیتاستی با مقادیر ۵، ۱۹، ۲۴، ۶۲، ۹۱ و ۱۰۰ را در نظر بگیرید. دامنه این دیتاست برابر با حاصل تفاضل کوچک‌ترین عنصر یعنی ۵ از بزرگ‌ترین عنصر مجموعه داده یعنی ۱۰۰ است.

شاخص های مرکزی

تمرکز شاخص‌های مرکزی بر میانگین یا مقادیر مرکزی دیتاست است. به‌طور کلی شاخص‌های پراکندگی و مرکزی از نمودارها و جداول برای درک عمیق‌تر نتایج تجزیه و تحلیل‌های آماری استفاده می‌کنند. شاخص‌های مرکزی به شرح موقعیت مرکزی توزیع داده می‌پردازند. یک فرد متخصص میزان تکرار هر کدام از نمونه‌ها را در مجموعه داده تحلیل و با معیارهایی مانند میانگین، میانه یا مد توصیف می‌کند. به این صورت، رایج‌ترین الگوهای مجموعه داده اندازه‌گیری می‌شوند.

توزیع

منظور از توزیع یا توزیع فراوانی، تعداد دفعات تکرار یک نمونه است. از سوی دیگر، گاهی میزان عدم وقوع و تکرار یک نمونه نیز به عنوان توزیع آن در نظر گرفته می‌شود. دیتاستی را تصور کنید که شامل مقادیر مرد، مرد، زن، زن، زن و دیگر است. توزیع این دیتاست را می‌توان مانند زیر خلاصه کرد:

  • تعداد مردها: ۲
  • تعداد زن‌ها: ۳
  • تعداد افرادی که جنسیت خود را مشخص نکرده‌اند: ۱
  • تعداد غیر مردها: ۴

پس از آنکه یاد گرفتیم آمار توصیفی چیست و با انواع آن نیز آشنا شدیم، در ادامه این مطلب از مجله فرادرس به مقایسه دو مورد از رایج‌ترین نوع داده یعنی تک متغیره و دو متغیره می‌پردازیم. در مطلب دیگری از مجله فرادرس به‌طور ویژه و تخصصی درباره شاخص‌های آمار توصیفی توضیح داده‌ایم که از طریق لینک زیر قابل مطالعه است:

تک متغیره و دو متغیره

در آمار توصیفی،‌ از داده‌های تک متغیره برای شناسایی تک ویژگی‌ها استفاده می‌شود و کاربردی در تحلیل روابط میان نمونه‌ها ندارد. برای مثال، اتاقی پر از دانش‌آموزان دبیرستانی را تصور کنید. هدف شما گردآوری میانگین سن دانش‌آموزان است. معیاری که برای محاسبه تنها به یک متغیر یعنی سن نیاز دارد. اما هدف از داده‌های دو متغیره، یافتن همبستگی و برقراری ارتباط میان دو متغیر است. از این رویکرد با عنوان «چند متغیره» (Multivariate) نیز یاد می‌شود. برای آشنایی بیشتر با نحوه تحلیل کاربردی داده‌های چند متغیره، می‌توانید فیلم آموزش آنالیز داده‌های چند متغیره فرادرس را از لینک زیر مشاهده کنید:

مانیتوری نمایش دهنده یک نمودار نقطه ای که بیانگر تفاوت میان داده های تک متغیره و دو متغیره است

در ادامه مثال قبل، می‌خواهیم بر اساس نتایج امتحانی سراسری، عملکرد دانش‌آموزان بزرگ‌تر را -از نظر سن- نسبت به دانش‌آموزان جوان‌تر بسنجیم. با جمع‌آوری نمرات و همچنین سن دانش‌آموزان، می‌توان ارتباط میان این دو متغیر را تحلیل و همچنین ترسیم کرد. توجه داشته باشید که در تحلیل دو متغیره و به‌منظور کشف تفاوت‌ها، همزمان میزان تکرار و پراکندگی دو متغیر بررسی می‌شود.

مصورسازی در آمار توصیفی

تا اینجا به‌خوبی می‌دانیم آمار توصیفی چیست، شامل چه انواعی شده و با دو نوع از داده‌های تک متغیره و دو متغیر آشنا شدیم. علاوه بر این موارد، نمایش گرافیکی و مصورسازی نیز جنبه مهمی در آمار توصیفی داشته و به چند روش مختلف که در ادامه توضیح می‌دهیم قابل انجام است.

نمودار نقطه ای

نموداری که ارتباط میان دو یا سه متغیر را نشان می‌دهد. در نمودار نقطه‌ای، یک متغیر بر محور افقی (x x ) و متغیر دیگر بر محور عمودی (y y ) تصویر می‌شود. همچنین ترسیم نمونه‌ها به شکل نقاطی پراکنده در نمودار است.

نمودار هیستوگرام

ابزاری برای نمایش توزیع داده‌های عددی است. در این نمودار برای هر نمونه و تعداد مرتبه‌ای که تکرار شده است دسته مجزایی در نظر گرفته می‌شود. با کمک نمودار هیستوگرام می‌توان شکل توزیع، شاخص‌های مرکزی و همچنین پراکندگی داده‌ها را به‌دست آورد.

نمودار جعبه ای

این نمودار با عنوان «جعبه و خط» (Box and Whisker) نیز شناخته می‌شود و با تاکید بر معیارهای آماری چون میانه (خط وسط جعبه)، چارک (گوشه‌های جعبه) و نمونه‌های پرت (نقاط بیرونی)، خلاصه دقیقی از توزیع داده‌ها ارائه می‌دهد. نمودار جعبه‌ای میزان پراکندگی داده‌ها را به تصویر کشیده و مناسب زمانی است که بخواهیم توزیع داده‌ها را بر اساس چند دسته یا متغیر با یک‌دیگر مقایسه کنیم.

آمار توصیفی و نمونه های پرت

بدون اشاره به نمونه‌های پرت نمی‌توان گفت آمار توصیفی چیست و چگونه کار می‌کند. نمونه‌های پرت به نقاط دور افتاده‌ای در دیتاست گفته می‌شود که بیانگر خطا، ناهنجاری یا رخدادهای نادر هستند. شناسایی و مدیریت این نمونه‌ها قدمی مهم در آمار توصیفی برای مطمئن شدن از دقت تجزیه و تحلیل است. برای این منظور، بهره‌گیری از تکنیک‌های گرافیکی مانند نمودار نقطه‌ای یا جعبه‌ای و همچنین روش‌های آماری مانند Z-score و «دامنه میان چارکی» (Interquartile Range | IQR) پیشنهاد می‌شود.

یک نمودار هیستوگرام که یک نمونه پرت را نشان می دهد

وجود داده‌های پرت تاثیر بسیاری بر نتایج، نحوه تفسیر داده‌ها و به‌طور کلی آمار توصیفی می‌گذارد. بنابراین ممکن است شاخص‌های مرکزی مانند میانگین تحت تاثیر قرار گرفته و به سمت «مقادیر حدی» (Extreme Values) میل کنند. به عنوان مثال میانگین دیتاستی با عناصر ۱، ۱، ۱ و ۹۹۷ برابر با ۲۵۰ است که نمی‌تواند معرف خوبی برای مجموعه داده باشد. چنین خطاهایی ممکن است به نتیجه‌گیری نادرست درباره وضعیت و توزیع دیتاست منجر شوند.

بسته به نوع محتوا، می‌توان داده‌های پرت نامرتبط و پرخطا را از دیتاست حذف کرد. اما شاید این قبیل از داده‌ها شامل اطلاعات ارزشمندی باشند که حذف آن‌ها را ناممکن می‌سازد. در نتیجه هنگام تجزیه و تحلیل اطلاعات، باید به میزان اهمیت و مشارکت داده‌های پرت در محاسبات آمار توصیفی توجه داشته باشید.

تفاوت آمار استنباطی و آمار توصیفی چیست؟

تفاوت آمار توصیفی با آمار استنباطی در دیتاست‌هایی است که از آن‌ها برای تصمیم‌گیری استفاده می‌شود. شرکتی را در نظر بگیرید که در زمینه فروش سس تند فعالیت دارد. این شرکت اطلاعاتی همچون تعداد فروش، میانگین تعداد خرید به‌ازای هر تراکنش و میانگین فروش در هر روز هفته را جمع‌آوری می‌کند. همه این اطلاعات توصیفی بوده و روایت‌گر داستانی از رویدادهای گذاشته هستند.

ذره بینی متمرکز شده بر روی نمونه ای کوچک که نشان دهنده آمار استنباطی است

حالا همین شرکت قصد رونمایی از سس تند جدیدی را دارد. مجدد شروع به جمع‌آوری همان اطلاعات، اما این‌بار به هدف پیش‌بینی حجم فروش محصول می‌کند. در نتیجه، دیگر نیازی به خلاصه‌سازی داده‌ها نبوده و پیش‌بینی‌ها نسبت به محصول جدید و صرف‌نظر از نمونه‌های قبلی صورت می‌گیرند. رویکردی که با عنوان آمار استنباطی از آن یاد می‌شود. به بیان دیگر، در حالی که آمار توصیفی به خلاصه‌سازی ویژگی‌های دیتاست می‌پردازد، آمار استنباطی امکان آزمایش فرضیه‌ها یا قابلیت تعمیم داده را به جوامع آماری بزرگ‌تر مهیا می‌کند.

آمار استنباطی به ما اجازه می‌دهد تا با استفاده از داده‌های نمونه به نتایجی درباره‌ی کل توزیع برسیم و فرضیات آماری را مورد بررسی و آزمایش قرار دهیم. پلتفرم فرادرس فیلم‌های آموزشی جامعی را از مباحث تئوری تا کاربردی در زمینه آمار استنباطی و به‌ویژه علوم انسانی تهیه و تولید کرده است که مشاهده آن‌ها را از طریق لینک‌های زیر به شما پیشنهاد می‌کنیم:

جمع‌بندی

تجزیه و تحلیل، خلاصه‌سازی و اشتراک‌گذاری صفات مجموعه داده از جمله کارکردهای آمار توصیفی است. در این مطلب از مجله فرادرس به این پرسش پاسخ دادیم که آمار توصیفی چیست، چه کاربردی داشته و با انواع مختلف آن آشنا شدیم. رویکردی که اگرچه برای تصمیم‌گیری و پیش‌بینی نهایی چندان مفید نبوده، اما کاربرد زیادی در استخراج اطلاعات سطح بالا همچون میانگین، واریانس و دامنه داشته و دید خوبی از توزیع و شکل کلی داده‌ها در اختیار ما قرار می‌دهد.


source

توسط expressjs.ir