اندازه‌گیری پراکندگی به ما کمک می‌کند تا بتوانیم در دو یا چند مجموعه داده، میزان گستردگی و تنوع داده‌ها را کمی‌سازی کنیم. این اندازه‌گیری با محاسبه چند پارامتر آماری مهم، مانند ضریب دامنه، ضریب انحراف میانگین، ضریب تغییرات و ضریب انحراف چارک انجام می‌شود. به همین علت، به هر کدام از این کمیت‌ها «ضریب پراکندگی» (Coefficient of Dispersion) گفته می‌شود و برای هر یک، فرمول ضریب پراکندگی مشخصی تعریف شده است.

فهرست مطالب این نوشته
997696

اندازه‌گیری پراکندگی با توجه به نوع داده‌ها ممکن است مطلق یا نسبی باشد. در اندازه‌گیری مطلق پراکندگی، کمیت‌هایی مانند دامنه، انحراف میانگین، انحراف معیار و انحراف چارک بررسی می‌شوند، در حالی که در اندازه‌گیری نسبی پراکندگی ضرایب هر کدام از این کمیت‌ها باید تحلیل شوند. بنابراین فرمول ضریب پراکندگی با فرمول پارامترهایی مانند دامنه، انحراف معیار، انحراف میانگین و انحراف چارک متفاوت است. در این نوشته از مجله فرادرس ابتدا به بررسی تفاوت اندازه‌گیری مطلق و نسبی پراکندگی خواهیم پرداخت. سپس، همراه با حل مثال توضیح می‌دهیم انواع ضریب پراکندگی چیست و نحوه محاسبه هر کدام به چه صورت است.

ضریب پراکندگی چیست و چه انواعی دارد؟

اگر دو یا چند مجموعه داده داشته باشیم و بخواهیم نحوه گسترش داده‌ها، فواصل آن‌ها نسبت به هم یا فواصل آن‌ها نسبت به مقدار مرکزی داده‌ها را بررسی کنیم، بهترین راه محاسبه چند پارامتر آماری مهم به نام ضریب دامنه، ضریب انحراف میانگین، ضریب تغییرات و ضریب انحراف چارک است:

ضریب پراکندگی فرمول ضریب پراکندگی
ضریب دامنه (CR) CR=LSL+SCR=frac{L-S}{L+S}
ضریب انحراف میانگین (CMD) CMD=i=1nxiμμnCMD=frac{sum_{i=1}^n |x_i-mu|}{mu n}
ضریب تغییرات (CV) CV=σμ×100%CV=frac{sigma}{mu}times100 %
ضریب انحراف چارک (CQD) CQD=Q3Q1Q3+Q1CQD=frac{Q_3-Q_1}{Q_3+Q_1}

هر کدام از این کمیت‌ها یک ضریب پراکندگی نام دارد. در جدول بالا، انواع فرمول ضریب پراکندگی آورده شده است. کاربرد اصلی ضرایب پراکندگی زمانی است که دو یا چند مجموعه داده با واحدهای متفاوت داریم، در نتیجه مقادیر میانگین کاملا متفاوتی برای هر سری از داده‌ها ایجاد شده‌‌اند.

محاسبه هر کدام از انواع ضریب پراکندگی، از دیدگاه متفاوتی به بررسی داده‌های ما کمک می‌کند. برای مثال، دامنه نشان می‌دهد اختلاف بین بزرگترین و کوچکترین مقدار ما در یک مجموعه داده چیست. اما واریانس میانگینی از مربع انحرافات تمام مشاهدات را محاسبه می‌کند. بنابراین برای اینکه اندازه‌گیری پراکندگی به‌درستی انجام شود، لازم است تمام این‌ کمیت‌ها محاسبه و تحلیل شوند. به‌ویژه اگر داده‌های پرت یا outliers داشته باشیم، اهمیت بررسی پراکندگی بهتر مشخص می‌شود.

تصویری از چند منحنی در زمینه کرم رنگ - ضریب پراکندگی

اندازه‌گیری پراکندگی در مورد نحوه پخش شدن و توزیع داده‌ها به ما اطلاعات لازم را ارائه می‌دهد. برای نمایش تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

نکته مهم بعدی این است که برای محاسبه انواع ضریب پراکندگی برای مثال ضریب تغییرات، ابتدا باید بدانیم واریانس چگونه محاسبه می‌شود. به همین دلیل ابتدا فرمول محاسبه دامنه، انحراف میانگین، واریانس و انحراف چارک را بیان می‌کنیم و در بخش‌های بعد به معرفی انواع فرمول ضریب پراکندگی خواهیم پرداخت.

مفهوم اندازه‌گیری پراکندگی در آمار

در بخش قبل با کلیت انواع ضریب پراکندگی آشنا شدیم. پراکندگی در آمار مفهومی است که چگونگی پخش شدن یا نحوه گستردگی داده‌ها حول مقدار میانگین را توصیف می‌کند و به ما کمک می‌کند تا تشخیص دهیم چقدر داده‌ها بهم نزدیک یا از هم دور هستند. به این ترتیب، میزان «سازگاری» (Consistency) یا «تنوع» (Variability) در یک مجموعه داده‌ مشخص خواهد شد.

تصویری از دو نوع توزیع با گستردگی متفاوت

مثال ۱

برای مثال در تصویر بالا دو توزیع را مشاهده می‌کنید که در آن‌ها محور افقی نشان‌دهنده مقادیر داده و محور عمودی بیان‌گر فراوانی هر داده است. هر دو توزیع، یک توزیع نرمال محسوب می‌شوند و برای هر دو، سه مقدار میانگین، میانه و مد یکسان است. اما واضح است که دو توزیع کاملا از لحاظ گستردگی و نحوه پخش داده‌ها یا پراکندگی با هم متفاوت‌اند.

بنابراین اگر پراکندگی را برای این دو توزیع اندازه بگیریم، خواهیم دید توزیعی که در راستای قائم گسترده شده است، پراکندگی کمتری نشان می‌دهد، در حالی که توزیع پهن‌تر، پراکندگی بیشتری نشان خواهد داد. پس هر چقدر پراکندگی کمتر باشد، داده‌ها به مقادیر مرکزی نزدیک‌تر هستند.

مثال ۲

در مثال دیگری، سه مجموعه داده زیر را که نشان‌دهنده نمرات کسب شده در یک آزمون هستند، در نظر بگیرید:

A=5,5,5,5,5,5,5,5,5,5A=5,5,5,5,5,5,5,5,5,5

B=0,0,0,0,0,10,10,10,10,10B=0,0,0,0,0,10,10,10,10,10

C=4,4,4,5,5,5,5,6,6,6C=4,4,4,5,5,5,5,6,6,6

با وجود اینکه هر سه مجموعه دارای مقادیر میانگین و میانه مشابهی برابر با 55 هستند، اما کاملا با هم فرق دارند. در مجموعه اول، تمام اعداد یکسان هستند، در حالی که در مجموعه دوم نیمی از اعداد به یک شکل و نیم دیگری از اعداد به شکل دیگر هستند.

در مجموعه سوم با اینکه سازگاری و تشابه مجموعه اول وجود ندارد، اما گستردگی مجموعه دوم هم دیده نمی‌شود. بنابراین با بررسی این مثال، می‌توانیم به این نتیجه برسیم که ما علاوه‌ بر دانستن میانگین و میانه، به اطلاعات دیگری برای بررسی نحوه انتشار یا توزیع داده‌های خود نیاز داریم. اندازه‌گیری پراکندگی این امکان را به ما می‌دهد که اطلاعات کاملی در مورد داده‌های خود به‌دست آوریم. اگر بتوانیم پراکندگی را اندازه‌گیری کنیم، نتایج به‌دست آمده به ما نشان می‌دهد که نحوه توزیع داده‌ها به چه صورت است. اندازه‌گیری پراکندگی به دو شیوه انجام می‌شود:

  • اندازه‌گیری نسبی پراکندگی
  • اندازه‌گیری مطلق پراکندگی

در هر کدام از این دو روش اندازه‌گیری، مطابق جدول زیر پارامتر‌ها یا کمیت‌های آماری خاصی محاسبه می‌شوند:

اندازه‌گیری پراکندگی
اندازه‌گیری نسبی اندازه‌گیری مطلق
ضریب دامنه ضریب انحراف میانگین ضریب تغییرات ضریب انحراف چارک دامنه انحراف میانگین واریانس انحراف چارک

در ادامه به معرفی و نحوه محاسبه هر کدام از این پارامترها خواهیم پرداخت. خواهیم دید در محاسبات هر کدام از این موارد، لازم است به نکات خاصی دقت کنید از جمله تفاوت بررسی در نمونه و جامعه آماری یا اینکه داده‌ها به‌صورت گروه‌بندی شده هستند یا خیر. در این زمینه، مطالعه مطلب «مفاهیم آماری – شاخص‌های توصیفی» از مجله فرادرس به شما کمک می‌کند تا دید بهتری نسبت به برخی از مهم‌ترین مفاهیم آماری و شاخص‌های توصیفی که برای توصیف جامعه یا نمونه‌ی آماری بکار می‌روند، به‌دست آورید.

یادگیری مباحث آمار و احتمال دبیرستان با فرادرس

پیش از اینکه به توضیح انواع اندازه‌گیری‌های پراکندگی بپردازیم، در این قسمت می‌خواهیم چند نمونه فیلم آموزشی از مجموعه فرادرس را به دانش‌آموزان معرفی کنیم تا با مشاهده آن‌ها اطلاعات خوبی در زمینه مباحث آمار و احتمال کسب کنند. در کتاب‌های درسی رشته‌های علوم ریاضی و علوم تجربی، مباحث آمار و احتمال از فصل نهم کتاب ریاضی پایه هفتم آغاز می‌شود و تا پایه دوازدهم ادامه دارد. بنابراین مشاهده فیلم‌های آموزشی زیر می‌تواند در تسلط کامل شما به مباحث آمار و احتمال مفید باشد:

مجموعه آموزش های دروس متوسطه فرادرس
برای مشاهده مجموعه فیلم آموزش دروس اول و دوم متوسطه از دروس دانشگاهی تا کاربردی فرادرس، روی تصویر کلیک کنید.
  1. فیلم آموزش ریاضی پایه هفتم فرادرس
  2. فیلم آموزش ریاضی پایه هشتم فرادرس
  3. فیلم آموزش ریاضی پایه دهم فرادرس
  4. فیلم آموزش ریاضی پایه یازدهم علوم تجربی فرادرس
  5. فیلم آموزش آمار و احتمال پایه یازدهم فرادرس
  6. فیلم آموزش ریاضی پایه دوازدهم علوم تجربی فرادرس

به ‌ویژه در کتاب درسی ریاضی دهم رشته علوم انسانی، موضوعاتی مانند معیارهای پراکندگی، مفهوم انحراف از معیار و نحوه به دست آوردن آن، واریانس و مفهوم دامنه میان‌چارکی توضیح داده شده است. مشاهده فیلم آموزش مربوط به این دوره‌ها نیز در کنار این مطلب، به یادگیری عمیق‌ شما کمک خواهد کرد:

  1. فیلم آموزش رایگان نمایش داده ها ریاضی پایه دهم علوم انسانی فرادرس
  2. فیلم آموزش ریاضی و آمار ۱ پایه دهم علوم انسانی فرادرس
  3. فیلم آموزش ریاضی و آمار ۱ پایه دهم به همراه حل سوالات کنکور فرادرس

اندازه‌گیری مطلق پراکندگی

تا اینجا آموختیم پراکندگی چیست و با انواع ضریب پراکندگی نیز به‌صورت کلی آشنا شدیم. اگر اندازه‌گیری‌های پراکندگی را در مورد داد‌ه‌هایی اجرا کنیم که همگی دارای واحد یکسانی هستند، در این صورت می‌گوییم اندازه‌گیری مطلق داشته‌ایم. برای مثال واحدهایی مانند متر، دلار یا کیلوگرم، بسته به نوع داده‌هایی که در اختیار داریم. نکته مهم این است که چون واحد تمام داده‌ها یکسان است یا چون تمام داده‌ها دارای واحد هستند، پس اندازه‌گیری ما واحد دارد.

تصویری از سه توزیع با گستردگی مختلف

همان‌طور که اشاره شد، کمیت‌های آماری که در اندازه‌گیری مطلق پراکندگی می‌توانند محاسبه شوند، عبارت‌اند از:

  • دامنه یا Range
  • انحراف میانگین یا Mean Deviation
  • واریانس یا Variance
  • انحراف معیار یا Standard Deviation
  • دامنه میان‌چارکی یا Interquartile Range
  • انحراف چارک یا Quartile Deviation
  • خمیدگی یا چولگی یا Skewness

در ادامه هر کدام از این پارامترها را به همراه روش محاسبه توضیح خواهیم داد.

دامنه چیست و چگونه محاسبه می‌شود؟

در اولین قدم لازم است مفهوم دامنه را بدانیم. دامنه یا R ساده‌ترین کمیت در بررسی پراکندگی محسوب می‌شود و معادل است با اختلاف بین بیشترین و کمترین مقدار داده‌ در یک مجموعه داده. اما پیش از آنکه به بررسی مفهوم دامنه بپردازیم، می‌خواهیم فیلم آموزش مفاهیم آماری در داده کاوی و پیاده سازی آن در پایتون Python فرادرس را به شما معرفی کنیم که در آن پس از توضیح مفاهیم معرفی شده در این نوشته، نحوه کاربرد آن‌ها در پایتون نیز توضیح داده شده است. برای مشاهده این دوره می‌توانید به لینکی که در ادامه برای شما قرار داده شده است، مراجعه کنید:

بنابراین محاسبه این کمیت با فرمول زیر انجام می‌شود:

R=LSR=L-S

که در آن L بزرگترین و S کمترین مقدار در میان داده‌ها است.

تصویری از یک خط آبی افقی در زمینه کرم و مقادیر ابتدا و انتهای خط
تعریف دامنه در آمار

برای مثال داده‌های شکل زیر را در نظر بگیرید. در این مجموعه داده، عدد ۹۵ به‌عنوان بیشترین و عدد ۶۴ به‌عنوان کمترین مقدار مشخص است. پس دامنه برای این مجموعه داده برابر می‌شود با 9564=3195-64=31

تصویری از چند عدد

دقت کنید در این بخش فرمول دامنه را برای یک مجموعه داده گروه‌بندی نشده معرفی کردیم. در بخش بعد روش محاسبه این کمیت را برای یک مجموعه داده گروه‌بندی شده توضیح می‌دهیم.

محاسبه دامنه برای داده‌های گروه‌بندی شده

برای اینکه با تفاوت داد‌ه‌های گروه‌بندی شده و داده‌های گروه‌بندی نشده در بخش قبل بهتر آشنا شوید، به مثال زیر توجه کنید. فرض کنید نمرات کسب شده توسط یک کلاس طبق جدول زیر جمع‌آوری شده‌اند و می‌خواهیم دامنه را برای این مجموعه داده گروه‌بندی نشده پیدا کنیم:

بازه نمرات فراوانی
0100-10 55
102010-20 88
203020-30 1515
304030-40 99

طبق آنچه توضیح داده شد، ابتدا باید بیشترین و کمترین مقدار داده را پیدا کنیم که برای این نوع داده، به شکل زیر تعیین می‌شود:

  • بیشترین مقدار یا L: کرانه بالا یا بیشترین مقدار در بالاترین طبقه
  • کمترین مقدار یا S: کرانه پایین یا کمترین مقدار در پایین‌ترین طبقه

بنابراین با توجه به جدول بالا و اینکه بالاترین طبقه معادل است با 304030-40

R=LS=400=40R=L-S=40-0=40

دقت کنید در محاسبه دامنه باید چند نکته را مدنظر داشته‌ باشیم:

  1. بالا بودن دامنه می‌تواند علامت این باشد که تنوع در مجموعه داده ما بالا است.
  2. اگر فقط دامنه را محاسبه کنیم، تحلیل چندان دقیقی نخواهیم داشت.
  3. برای توزیع‌‌های فراوانی با انتهای باز امکان محاسبه دامنه وجود ندارد.

در مورد نکته شماره دو، علت این است که در این بررسی فقط بیشترین و کمترین مقادیر داد‌ه‌ها را در نظر گرفته‌ایم، در حالی که این دو عدد قطعا نمی‌توانند نحوه انتشار یا پخش‌شدگی داد‌ه‌ها را نشان دهند. همچنین در سومین نکته، بهتر است بدانیم توزیع‌های فراوانی با انتهای باز به توزیع‌هایی گفته می‌شود که در آن‌ها کرانه پایین‌ پایین‌ترین طبقه یا کرانه بالای بالاترین طبقه تعریف نشده است.

مثال

دامنه را برای توزیع فراوانی زیر محاسبه کنید:

بازه نمرات فراوانی
102010-20 88
203020-30 2525
304030-40 99

پاسخ

با توجه به اینکه در این سوال داده‌ها در قالب سه بازه مختلف با طول یکسان تعریف شده‌اند، پس با داده‌های گروه‌بندی شده مواجه هستیم و لازم است برای تعیین بیشترین و کمترین مقادیر، روش گفته شده در بخش قبل را بکار ببریم:

  • بیشترین مقدار یا L = بیشترین مقدار در بالاترین طبقه یعنی 304030-40
  • کمترین مقدار یا S = کمترین مقدار در پایین‌ترین طبقه یعنی 102010-20

R=LS=4010=30Rightarrow R=L-S=40-10=30

انحراف میانگین چیست و چگونه محاسبه می‌شود؟

پیش‌نیاز درک ضریب پراکندگی انحراف میانگین این است که ابتدا به انحراف میانگین و فرمول آن مسلط باشیم. انحراف میانگین که با MD نمایش داده می‌شود، برابر است با میانگین حسابی حاصل تفریق مقادیر داده و مقدار میانگین. انحراف میانگین در حقیقت به ما نشان می‌دهد فاصله یک داده فرضی از نقطه مرکزی داده‌ها چقدر است. دقت کنید منظور ما از نقطه مرکزی داده‌ها لزوما میانگین داده‌ها نیست، بلکه نقطه مرکزی داده‌ها می‌تواند «میانگین» (Mean)، «میانه» (Median) یا «مد» (Mode) باشد.

ستون‌هایی با رنگ بنفش در کنار هم که در وسط آن‌ها یک ستون سبز قرار دارد.
مفهوم میانه

پیش از اینکه به توضیح بیشتر در مورد انحراف میانگین بپردازیم، بهتر است ابتدا روش محاسبه میانگین را به ساده‌ترین شکل ممکن بیان کنیم. اگر مجموعه داده‌ ما گروه‌بندی نشده باشد، نقطه مرکزی داده‌ها منطبق بر میانگین است. در داده‌های گروه‌بندی نشده، تعدادی داده به‌صورت x1,x2,...,xnx_1,x_2,…,x_n

μ=x1+x2+...+xnnmu=frac{x_1+x_2+…+x_n}{n}

در رابطه بالا n تعداد داده‌ها است. با داشتن میانگین، انحراف میانگین توسط فرمول زیر به‌دست خواهد آمد:

MD=i=1nxiμnMD=frac{sum_{i=1}^n |x_i-mu|}{n}

که در آن ∑ به معنای مجموع و قدر مطلق به این معنا است که پس از محاسبه xiμx_i-mu. پس فرمول انحراف میانگین در این حالت مشخص شد. برای مثال فرض کنید مجموعه داده‌ای به شکل زیر داریم:

5,10,25-5, 10, 25

برای اینکه انحراف میانگین این سه عدد را پیدا کنیم، ابتدا میانگین را محاسبه می‌کنیم:

μ=x1+x2+...+xnn=5+10+253=10mu=frac{x_1+x_2+…+x_n}{n}=frac{-5+10+25}{3}=10

سپس جدولی به شکل زیر رسم کرده و مقادیر خواسته شده را به‌دست می‌آوریم:

xix_i xiμx_i-mu xiμ |x_i-mu|
5-5 510=15-5-10=-15 15=+15 |-15|=+15
1010 1010=010-10=0 00
2525 2510=1525-10=15 +15=+15 |+15|=+15
15+0+15=3015+0+15=30

در آخرین مرحله کافی است عدد به‌دست آمده در انتهای ستون سوم را بر تعداد داده‌ها تقسیم کنیم:

MD=303=10MD=frac{30}{3}=10

همچنین می‌توانیم با نوشتن مستقیم فرمول MD و عددگذاری، حاصل را به صورت زیر حساب کنیم:

MD=i=1nxiμn=510+1010+25103MD=frac{sum_{i=1}^n |x_i-mu|}{n}=frac{ |-5-10|+|10-10|+|25-10|}{3}

MD=15+0+153=303=10MD=frac{ |-15|+|0|+|15|}{3}=frac{30}{3}=10

به اثر علامت قدر مطلق در محاسبات بالا دقت کنید. اگر قدر مطلق را اعمال نکنیم، حاصل صفر به‌دست می‌آید که اشتباه است.

محاسبه انحراف میانگین برای داده‌های گروه‌بندی شده

اگر داده‌های ما گروه‌بندی شده باشند، در این صورت همان‌طور که گفتیم، نقطه مرکزی ممکن است میانگین نباشد. فرمول محاسبه انحراف میانگین در این شرایط برابر است با:

MD=i=1nxixˉnMD=frac{sum_{i=1}^n |x_i-bar{x}|}{n}

در این فرمول xˉbar{x}. محاسبه انحراف میانگین برای داده‌های گروه‌بندی شده و غیرگروهی با فرمول‌‌هایی که در این دو بخش گفتیم امکان‌پذیر است.

همچنین ممکن است داده‌های ما شامل مقادیر عددی گسسته و دارای فراوانی مشخصی باشند. برای مثال جدول داده‌های زیر را در نظر بگیرید که در یک ستون آن مقادیر عددی مقدار حقوق دریافتی کارکنان یک مجموعه و در ستون دیگر، فراوانی هر مقدار بیان شده است. منظور از فراوانی، تعداد تکرارهای یک مقدار مشخص در یک مجموعه داده‌ است. برای مثال زمانی که می‌گوییم فراوانی عدد ۲۵۰۰ برابر است با هفت، یعنی حقوق دریافتی هفت نفر برابر با ۲۵۰۰ است.

میزان حقوق دریافتی فراوانی
25002500 77
30003000 99
40004000 55
45004500 66
50005000 33

فرمولی که برای محاسبه انحراف میانگین در این شرایط می‌توانیم استفاده کنیم، به شکل زیر است:

                MD=i=1nfixixˉi=1nfiMD=frac{sum_{i=1}^n f_i|x_i-bar{x}|}{sum_{i=1}^nf_i}

که در آن fif_i. همچنین اگر مجموعه داده‌هایی به شکل زیر داشتیم که در آن به‌جای مقادیر عددی گسسته، با یک بازه عددی مواجه شدیم (برای مثال گروه سنی ۱۰ تا ۲۰ سال)، در این صورت داده‌های ما از نوع پیوسته محسوب می‌شوند:

گروه سنی فراوانی
102010-20 1515
203020-30 1010
304030-40 1313
405040-50 1212

فرمول محاسبه انحراف میانگین در این حالت به‌‌صورت زیر است:

  MD=i=1nxixˉi=1nfiMD=frac{sum_{i=1}^n |x_i-bar{x}|}{sum_{i=1}^nf_i}

مثال ۱

انحراف میانگین یک مجموعه داده به شکل زیر را پیدا کنید:

4,5,6,7,84,5,6,7,8

پاسخ

برای حل این مثال، چند گام زیر را به‌ترتیب اجرا می‌کنیم:

  1. محاسبه میانگین داده‌ها
  2. محاسبه اختلاف یا فاصله هر داده از میانگین
  3. محاسبه میانگین اعداد به‌دست آمده از مرحله قبل

چون داده‌ها شامل یک گروه هستند، پس اولین قدم محاسبه مقدار میانگین این داده‌ها با فرمول زیر است:

μ=x1+x2+...+xnnmu=frac{x_1+x_2+…+x_n}{n}

μ=4+5+6+7+85=6Rightarrow mu=frac{4+5+6+7+8}{5}=6

در مرحله بعد، کافی است اختلاف هر مقدار داده را از میانگین محاسبه شده پیدا کنیم. این اختلاف «فاصله یا انحراف» (Deviation) هم نامیده می‌شود. برای اینکه از اشتباه جلوگیری کنید، بهتر است محاسبات خود را با رسم جدولی مشابه جدول زیر انجام دهید:

xix_i xiμx_i-mu
44 46=24-6=-2
55 56=15-6=-1
66 66=06-6=0
77 76=17-6=1
88 86=28-6=2

در آخرین مرحله، انحراف میانگین را با فرمول بیان شده در بخش قبل حساب می‌کنیم:

MD=i=1nxiμnMD=frac{sum_{i=1}^n |x_i-mu|}{n}

MD=2+1+0+1+25=1.2Rightarrow MD=frac{2+1+0+1+2}{5}=1.2

تصویری رنگی از دانش‌آموزان در کلاس آمار

مثال ۲

انحراف میانگین را برای داده‌های نمایش داده شده در جدول زیر محاسبه کنید:

بازه فراوانی
5155-15 88
152515-25 1212
253525-35 66
354535-45 44

پاسخ

اولین قدم محاسبه مقدار مرکزی این داده‌ها است که در هر بازه می‌توان به‌راحتی آن را مشخص کرد. برای مثال در بازه ۵ تا ۱۵، عدد مرکزی برابر است با ۱۰، اما در بازه ۱۵ تا ۲۵ عدد مرکزی ۲۰ خواهد شد و به همین ترتیب. در ستون چهارم جدول زیر، مقادیر دو ستون قبلی در هم ضرب شده‌اند.

بازه فراوانی (fif_i نقطه مرکزی (xix_i fixif_ix_i
5155-15 88 1010 8080
152515-25 1212 2020 240240
253525-35 66 3030 180180
354535-45 44 4040 160160
  i=14fi=30sum_{i=1}^4f_i=30 i=14fixi=660sum_{i=1}^4f_ix_i=660

بنابراین حالا می‌توانیم میانه را با کمک گرفتن از فرمول زیر محاسبه کنیم:

xˉ=i=14fixii=14fi=66030=22bar{x}=frac{sum_{i=1}^4f_ix_i}{sum_{i=1}^4f_i}=frac{660}{30}=22

در مرحله بعد باید انحراف هر مقدار از عدد به‌دست آمده در مرحله قبل را به‌دست آوریم. بهتر است مجددا جدولی به شکل جدول زیر در نظر بگیریم:

بازه فراوانی (fif_i نقطه مرکزی (xix_i xixˉ|x_i-bar{x}|
5155-15 88 1010 1212
152515-25 1212 2020 22
253525-35 66 3030 88
354535-45 44 4040 1818
  i=14fi=30sum_{i=1}^4f_i=30 i=14xixˉ=40sum_{i=1}^4|x_i-bar{x}|=40

حالا کافی است مقادیر به‌دست آمده را در فرمول زیر قرار دهیم:

  MD=i=1nxixˉi=1nfiMD=frac{sum_{i=1}^n |x_i-bar{x}|}{sum_{i=1}^nf_i}

  MD=4030=1.33Rightarrow MD=frac{40}{30}=1.33

تمرین

انحراف میانگین چند داده به شکل 2,4,6,8,102, 4, 6, 8, 10

گزینه سوم صحیح است. برای محاسبه MD، ابتدا باید ببینیم داده‌های ما گروه‌بندی شده‌اند یا خیر. طبق صورت سوال، گروه‌بندی نداریم. پس میانگین را با فرمول زیر محاسبه می‌کنیم:

μ=x1+x2+...+xnn=2+4+6+8+105=6mu=frac{x_1+x_2+…+x_n}{n}=frac{2+4+6+8+10}{5}=6

xix_i xiμx_i-mu xiμ |x_i-mu|
22 26=42-6=-4 4=+4 |-4|=+4
44 46=24-6=-2 2=+2 |-2|=+2
66 66=06-6=0 00
88 86=28-6=2 +2=+2 |+2|=+2
1010 106=410-6=4 +4=+4 |+4|=+4
    4+2+0+2+4=124+2+0+2+4=12

سپس جدولی به شکل بالا رسم می‌کنیم و مقادیر ردیف اول را به‌دست می‌آوریم. در آخرین مرحله کافی است عدد به‌دست آمده در انتهای ستون سوم را بر تعداد داده‌ها تقسیم کنیم:

MD=125=2.4MD=frac{12}{5}=2.4

واریانس و انحراف معیار چه هستند و چگونه محاسبه می‌شوند؟

در سومین بخش از اندازه‌گیری‌های مطلق پراکندگی، به معرفی و روش محاسبه واریانس و انحراف معیار می‌پردازیم. یادگیری این مبحث به ما کمک می‌کند تا بتوانیم از فرمول ضریب پراکندگی مهمی به نام فرمول ضریب تغییرات به‌راحتی در حل مسائل آماری خود استفاده کنیم. واریانس یا σ2sigma^2 به‌صورت میانگین حسابی مجذور انحرافات داده‌ها از مقدار میانگین تعریف می‌شود، در حالی که انحراف معیار یا σsigma معادل است با ریشه دوم واریانس.

پس این دو کمیت معمولا به دنبال هم محاسبه می‌شوند و با داشتن واریانس، پیدا کردن انحراف معیار آسان است. در واقع واریانس برابر است با مجذور انحراف معیار. این کمیت‌ها از اساسی‌ترین پارامترهای آماری محسوب می‌شوند که در ادامه با بررسی مثال نحوه محاسبه آن‌ها را آموزش می‌دهیم.

تصویری از یک منحنی گوسی با مساحت تقسیم شده

نکته مهم در محاسبه واریانس این است که آیا برای داده‌های یک نمونه محاسبه می‌شود یا جامعه آماری. اگر داده‌های جمعیت را بررسی می‌کنیم، فرمول واریانس به شکل زیر است:

σ2=i=1n(xiμ)2nsigma^2=frac{sum_{i=1}^n (x_i-mu)^2}{n}

که در آن μ میانگین جمعیت است و n تعداد مشاهدات. با داشتن واریانس، انحراف معیار داده‌ها در یک جامعه آماری به‌صورت زیر محاسبه می‌شود:

σ=σ2=i=1n(xiμ)2nsigma=sqrt{sigma^2}=sqrt{frac{sum_{i=1}^n (x_i-mu)^2}{n}}

چنانچه داده‌های ما مربوط به یک نمونه باشند، فرمول واریانس برابر است با:

σ2=i=1n(xixˉ)2n1sigma^2=frac{sum_{i=1}^n (x_i-bar{x})^2}{n-1}

در رابطه بالا xˉbar{x}. ‌واریانس برای نمونه را با s2s^2 هم نشان می‌دهند. بنابراین فرمول انحراف معیار در این حالت می‌شود:

σ=σ2=i=1n(xixˉ)2n1sigma=sqrt{sigma^2}=sqrt{frac{sum_{i=1}^n (x_i-bar{x})^2}{n-1}}

تقریبا هر دو فرمول مشابه هم هستند، تفاوت اساسی در مخرج است که در مورد جمعیت n و در مورد نمونه n-1 در نظر گرفته می‌شود. اصلاح n به n-1 برای نمونه، تصحیح بسل نام دارد و باعث شده است نتایج درست‌تری حاصل شود.

تصویری از دو گروه از مردم

تفاوت نمونه و جامعه آماری (برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید)

محاسبه واریانس جهت اطلاع از گستردگی یک مجموعه داده خیلی مهم است. برای مثال اگر تمام داده‌های ما یکسان باشند، در این صورت واریانس صفر است. هر واریانس مخالف صفری، همواره یک عدد مثبت است. واریانس پایین به معنای این است که داده‌های نقطه‌ای ما هم به مقدار میانگین و هم به یکدیگر نزدیکتر هستند. در حالی که واریانس بالا نشان‌دهنده این است که داده‌های نقطه‌ای نسبت به میانگین و یکدیگر توزیع گسترده‌تری دارند و از هم دورتر هستند.

برای مثال فرض کنید می‌خواهیم انحراف معیار را در مورد جامعه آماری زیر پیدا کنیم:

1,3,6,7,121, 3, 6, 7, 12

محاسبه با پیدا کردن میانگین، واریانس و در نهایت انحراف معیار کامل می‌شود. پس ابتدا فرمول میانگین را به شکل زیر می‌نویسیم:

μ=x1+x2+...+xnnmu=frac{x_1+x_2+…+x_n}{n}

μ=1+3+6+7+125=5.8Rightarrow mu=frac{1+ 3+ 6+ 7+12}{5}=5.8

حالا به کمک جدول زیر قدم به قدم واریانس را حساب می‌کنیم. می‌دانیم فرمول واریانس برای یک جامعه آماری به شکل زیر است:

σ2=i=1n(xiμ)2nsigma^2=frac{sum_{i=1}^n (x_i-mu)^2}{n}

xix_i xiμx_i-mu (xiμ)2(x_i-mu)^2
11 15.8=4.81-5.8=-4.8 (4.8)2=23.04(-4.8)^2=23.04
33 35.8=2.83-5.8=-2.8 (2.8)2=7.84(-2.8)^2=7.84
66 65.8=0.26-5.8=0.2 (0.2)2=0.04(-0.2)^2=0.04
77 75.8=1.27-5.8=1.2 (1.2)2=1.44(1.2)^2=1.44
1212 125.8=6.212-5.8=6.2 (6.2)2=38.44(6.2)^2=38.44
i=1n(xiμ)2=70.8sum_{i=1}^n (x_i-mu)^2=70.8

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس به‌دست آید:

σ2=70.85=14.16Rightarrow sigma^2=frac{70.8}{5}=14.16

بنابراین انحراف معیار طبق فرمول زیر می‌شود:

σ=σ2=14.16=3.76Rightarrow sigma=sqrt{sigma^2}=sqrt{14.16}=3.76

مثال

واریانس نمونه را برای یک مجموعه داده به شکل 2,6,12,152, 6, 12, 15

پاسخ

دقت کنید در صورت سوال ذکر شده است واریانس نمونه، پس فرمول مناسب برای حل این سوال به شکل زیر است:

σ2=i=1n(xixˉ)2n1sigma^2=frac{sum_{i=1}^n (x_i-bar{x})^2}{n-1}

ابتدا باید xˉbar{x}

xˉ=x1+x2+...+xnnbar{x}=frac{x_1+x_2+…+x_n}{n}

xˉ=2+6+12+154=8.75Rightarrow bar{x}=frac{2+6+12+15}{4}=8.75

حالا به کمک جدول زیر گام به گام واریانس را به‌دست می‌آوریم:

xix_i xiμx_i-mu (xiμ)2(x_i-mu)^2
22 28.75=6.752-8.75=-6.75 (6.75)2=45.56(-6.75)^2=45.56
66 68.75=2.756-8.75=-2.75 (2.75)2=7.56(-2.75)^2=7.56
1212 128.75=3.2512-8.75=3.25 (3.25)2=10.56(3.25)^2=10.56
1515 158.75=6.2515-8.75=6.25 (6.25)2=39.06(6.25)^2=39.06
i=1n(xiμ)2=102.74sum_{i=1}^n (x_i-mu)^2=102.74

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به n-1 تقسیم کنیم تا واریانس به‌دست آید:

σ2=102.743=34.24Rightarrow sigma^2=frac{102.74}{3}=34.24

تمرین

اگر یک تاس را بیندازیم، واریانس مشاهدات ممکن چقدر است؟

گزینه آخر صحیح است. با پرتاب تاس تعداد خروجی‌های ممکن ۶ حالت خواهد بود. بنابراین فضای نمونه یا n برابر است با ۶ و مجموعه داده‌های ما عبارت‌اند از:

1,2,3,4,5,6‌1, 2, 3, 4, 5, 6

محاسبه واریانس با فرمول زیر امکان‌پذیر است. دقت کنید در اینجا کل جامعه آماری را در نظر گرفته‌ایم:

σ2=i=1n(xiμ)2nsigma^2=frac{sum_{i=1}^n (x_i-mu)^2}{n}

اولین مرحله نوشتن فرمول میانگین به شکل زیر است:

μ=x1+x2+...+xnnmu=frac{x_1+x_2+…+x_n}{n}

μ=1+2+3+4+5+66=3.5Rightarrow mu=frac{1+ 2+3+4+5+6}{6}=3.5

حالا با استفاده از جدول زیر واریانس را حساب می‌کنیم:

xix_i xiμx_i-mu (xiμ)2(x_i-mu)^2
11 13.5=2.51-3.5=-2.5 (2.5)2=6.25(-2.5)^2=6.25
22 23.5=1.52-3.5=-1.5 (1.5)2=2.25(-1.5)^2=2.25
33 33.5=0.53-3.5=-0.5 (0.5)2=0.25(-0.5)^2=0.25
44 43.5=0.54-3.5=0.5 (0.5)2=0.25(0.5)^2=0.25
55 53.5=1.55-3.5=1.5 (1.5)2=2.25(1.5)^2=2.25
66 63.5=2.56-3.5=2.5 (2.5)2=6.25(2.5)^2=6.25
    i=1n(xiμ)2=17.5sum_{i=1}^n (x_i-mu)^2=17.5

در نهایت با تقسیم کردن آخرین سلول از ستون سوم جدول بالا به n، واریانس به شکل زیر محاسبه می‌شود:

σ2=17.56=2.91Rightarrow sigma^2=frac{17.5}{6}=2.91

دامنه میان‌چارکی و انحراف چارک چه هستند و چگونه محاسبه می‌شوند؟

تا اینجا یاد گرفتیم که به میزان تفاوت مقادیر یک توزیع نسبت به مقادیر متوسط، پراکندگی گفته می‌شود و اندازه‌گیری پراکندگی ممکن است مطلق باشد یا با محاسبه انواع ضریب پراکندگی انجام شود. همچنین با بخشی از کمیت‌های مهم در ارزیابی پراکندگی آشنا شدیم. در ادامه با یکی دیگر از کمیت‌های آماری مهم به نام دامنه میان‌چارکی آشنا می‌شویم که برابر است با اختلاف مقادیر چارک بالا یا چارک سوم (Q3) و چارک پایین یا چارک اول (Q1) و با فرمول زیر محاسبه می‌شود:

Q3Q1Q_3-Q_1

برای اینکه بهتر درک کنید مفهوم چارک چیست، شکل زیر را در نظر بگیرید:

بخش‌های مختلف یک توزیع

برای مشاهده تصویر در ابعاد بزرگتر، روی آن کلیک کنید.

چارک‌ها به منظور تقسیم یک مجموعه داده به چهار بخش مساوی استفاده می‌شوند. اگر بخواهیم در یک مجموعه داده چارک اول و سوم را به راحتی پیدا کنیم، می‌توانیم از روابط زیر استفاده کنیم:

  • چارک بالا یا Q3: اندازه آیتم 3(n+14)3(frac{n+1}{4})
  • چارک پایین یا Q1: اندازه آیتم n+14frac{n+1}{4}

انحراف چارک که با نماد QD نشان داده می‌شود، به‌صورت نصف اختلاف مقادیر چارک بالا و پایین در یک مجموعه داده تعریف می‌شود. گفتیم اختلاف مقادیر دو چارک بالا و پایین با دامنه میان‌چارکی برابر است. پس می‌توانیم بگوییم انحراف چارک با نصف دامنه میان‌چارکی برابر است:

QD=Q3Q12QD=frac{Q_3-Q_1}{2}

بنابراین با فرمول انحراف چارک نیز آشنا شدیم. برای مثال فرض کنید داده‌هایی به شکل زیر در اختیار دارید و می‌خواهید انحراف چارک را پیدا کنید:

150,100,268,280,195,140,200150, 100, 268, 280, 195, 140, 200

بهتر است ابتدا دامنه میان‌چارکی را پیدا کنیم. اما پیش از آن، اولین گام در مبحث چارک این است که داده‌های خود را به ترتیب از کمترین تا بیشترین مقدار مرتب کنیم:

100,140,150,195,200,268,280100, 140, 150, 195, 200, 268, 280

حالا می‌توانیم چارک اول و سوم را پیدا کنیم. طبق فرمولی که در بالا گفتیم، چارک پایین برابر است با اندازه آیتم n+14frac{n+1}{4}

7+14=2frac{7+1}{4}=2

دقت کنید n برابر است با تعداد داده‌ها که در اینجا معادل است با عدد هفت. پس باید ببینیم مقدار آیتم دوم در داده‌های مرتب شده ما چیست:

Q1=140Q_1=140

همچنین برای چارک بالا خواهیم داشت:

3(7+14)=63(frac{7+1}{4})=6

ششمین آیتم در داده‌های مرتب شده برابر است با عدد ۲۶۸. پس داریم:

Q3=268Q_3=268

حالا با داشتن چارک اول و سوم می‌توانیم دامنه‌ میان‌چارکی و به دنبال آن، انحراف چارک را محاسبه کنیم:

Q3Q1=268140=128Q_3-Q_1=268-140=128

QD=Q3Q12QD=frac{Q_3-Q_1}{2}

QD=1282=64Rightarrow QD=frac{128}{2}=64

محاسبه انحراف چارک برای داده‌های گروه‌بندی شده

در این بخش با یک مثال نشان می‌دهیم که اگر داده‌های گروه‌بندی شده داشتیم، چگونه می‌توانیم انحراف چارک را پیدا کنیم. فرض کنید جدول زیر نمرات کسب شده توسط دانش‌آموزان یک کلاس را به شما می‌دهد:

نمرات فراوانی
6060 2525
6262 2121
6868 2828
7070 1818
7575 2424
8080 2020
8888 2424
9090 1717
9797 2222

در این مثال شرایط کمی با مثال قبلی متفاوت است. در واقع با مجموعه داده‌هایی سروکار داریم که دارای فراوانی هستند، یعنی دو سری داده داریم. در چنین شرایطی باید فراوانی تجمعی یا CF را محاسبه کنیم. به این منظور، لازم است ابتدا داده‌های خود را مرتب کنیم که در این مثال داده‌ها به‌صورت پیش فرض مرتب شده هستند.

سپس اولین فراوانی تجمعی برابر خواهد شد با فراوانی مطلق اولین یا کوچکترین مقدار. دومین فراوانی تجمعی برابر است با مجموع اولین فراوانی تجمعی و دومین فراوانی مطلق. سومین فراوانی تجمعی برابر است با مجموع دومین فراوانی تجمعی و سومین فراوانی مطلق و به همین ترتیب. در جدول زیر این روند را نشان داده‌ایم:

نمرات فراوانی مطلق فراوانی تجمعی
6060 2525 2525
6262 2121 25+21=4625+21=46
6868 2828 46+28=7446+28=74
7070 1818 74+18=9274+18=92
7575 2424 92+24=11692+24=116
8080 2020 116+20=136116+20=136
8888 2424 136+24=160136+24=160
9090 1717 160+17=177160+17=177
9797 2222 177+22=199177+22=199

حالا با در نظر گرفتن آخرین عدد از ستون سوم، یعنی ۱۹۹ به‌عنوان n، می‌توانیم چارک‌های بالا و پایین را طبق روندی که توضیح داد‌ه بودیم، به‌دست آوریم. چارک پایین برابر است با اندازه آیتم n+14frac{n+1}{4}

199+14=50frac{199+1}{4}=50

سپس باید ببینیم مقدار آیتم پنجاهم در جدول بالا برابر با کدام مقدار است. به ستون سوم نگاه می‌کنیم. عدد ۵۰ در این ستون از ۴۶ بیشتر و از ۷۴ کمتر است. پس باید نمره‌ای که معادل با ردیف سوم است، یعنی عدد ۶۸ را به‌عنوان چارک پایین در نظر بگیریم:

Q1=68Q_1=68

همچنین برای چارک بالا خواهیم داشت:

3(199+14)=1503(frac{199+1}{4})=150

صد و پنجاهمین آیتم در داده‌‌های ستون سوم بین ۱۳۶ و ۱۶۰ قرار دارد. پس نمره معادل با این چارک ۸۸ خواهد بود:

Q3=88Q_3=88

حالا با داشتن چارک اول و سوم می‌توانیم دامنه‌ میان‌چارکی و به دنبال آن، انحراف چارک را محاسبه کنیم:

Q3Q1=8868=20Q_3-Q_1=88-68=20

QD=Q3Q12QD=frac{Q_3-Q_1}{2}

QD=202=10Rightarrow QD=frac{20}{2}=10

اندازه‌گیری نسبی پراکندگی

پس از اینکه با روش محاسبه کمیت‌های مهم در اندازه‌گیری پراکندگی آشنا شدیم، حالا می‌توانیم انواع مختلف فرمول ضریب پراکندگی را معرفی کنیم. در اندازه‌گیری نسبی پراکندگی، داده‌هایی داریم که ممکن است دارای واحد‌های مختلفی باشند یا اصلا واحد نداشته باشند. پس حاصل اندازه‌گیری نسبی پراکندگی، اعدادی بدون واحد است که ضریب پراکندگی نام دارند. معمولا زمانی که دو یا چند مجموعه داده با مقادیر میانگین کاملا متفاوت داریم، لازم است اندازه‌گیری نسبی انجام دهیم، به این صورت که انواع ضریب پراکندگی شامل موارد زیر را محاسبه می‌کنیم:

  • ضریب دامنه یا Coefficient of Range
  • ضریب انحراف میانگین یا Coefficient of Mean Deviation
  • ضریب تغییرات یا Coefficient of Variation
  • ضریب انحراف چارک یا Coefficient of Quartile Deviation

در ادامه هر ضریب پراکندگی را تعریف کرده و با حل مثال، روش محاسبه آن‌ها را توضیح خواهیم داد. پیشنهاد می‌کنیم موارد بیان شده در این بخش را با موارد مشابه بخش قبل حتما مقایسه کنید تا دید دقیق‌تری نسبت به انواع اندازه‌گیری‌های پراکندگی، ضریب پراکندگی و فرمول ضریب پراکندکی به‌دست آورید.

ضریب دامنه چیست و چگونه محاسبه می‌شود؟

به‌عنوان ساده‌ترین ضریب پراکندگی، ابتدا ضریب دامنه را توضیح می‌دهیم. گفتیم دامنه برابر است با اختلاف میان بیشترین و کمترین مقادیر در یک مجموعه داده. اگر نسبت دامنه را به مجموع بیشترین و کمترین مقادیر داده محاسبه کنیم، ضریب دامنه یا CR را پیدا کرده‌ایم. بنابراین فرمول ضریب پراکندگی در این بخش به شکل زیر است:

CR=LSL+SCR=frac{L-S}{L+S}

که در آن L برابر است با بیشترین مقدار داده و S کمترین مقدار داده محسوب می‌شود.

مثال

برای دو گروه داده زیر، ضریب پراکندگی دامنه را محاسبه کنید:

63,89,98,125,79,108,117,6863, 89, 98, 125, 79, 108, 117, 68

43.5,13.6,18.9,38.4,61.4,29.843.5, 13.6, 18.9, 38.4, 61.4, 29.8

پاسخ

در اولین گروه، بیشترین مقدار یا L برابر است با ۱۲۵ و کمترین مقدار یا S می‌شود ۶۳. بنابراین ضریب دامنه یا QR با کاربرد فرمول ضریب پراکندگی مناسب برابر خواهد شد با:

CR=LSL+SCR=frac{L-S}{L+S}

CR=12563125+63=0.33Rightarrow CR=frac{125-63}{125+63}=0.33

در مورد داده‌های گروه دوم، هم به همین شکل عمل می‌کنیم:

L=61.4L=61.4

S=13.6S=13.6

CR=LSL+SCR=frac{L-S}{L+S}

CR=61.413.661.4+13.63=0.64Rightarrow CR=frac{61.4-13.6}{61.4+13.63}=0.64

تمرین

دامنه و ضریب دامنه برای مجموعه داده 8,12,5,6,8,2,158, 12, 5, 6, 8, 2, 15

گزینه دوم درست است. بیشترین مقدار یا L در این مجموعه داده برابر است با ۱۵ و کمترین مقدار یا S برابر است با ۲. در نتیجه R و CR به‌صورت زیر به‌دست می‌آیند:

R=LS=152=13R=L-S=15-2=13

CR=LSL+SCR=frac{L-S}{L+S}

CR=1315+2=0.76Rightarrow CR=frac{13}{15+2}=0.76

ضریب انحراف میانگین چیست و چگونه محاسبه می‌شود؟

دومین ضریب پراکندگی که می‌خواهیم توضیح دهیم، ضریب انحراف میانگین یا CMD است. برای تعریف این کمیت هم نیاز داریم از تعریف ارائه شده در بخش‌های قبل برای انحراف میانگین استفاده کنیم. پس از محاسبه انحراف میانگین، کافی است مقدار به‌دست آمده را به مقدار داده‌ای که در مرکزی‌ترین نقطه از نقاط داد‌ه‌های ما قرار می‌گیرد، تقسیم کنیم تا ضریب انحراف میانگین را داشته باشیم. پس فرمول ضریب پراکندگی مناسب برای این کمیت به شکل زیر است:

CMD=i=1nxiμμnCMD=frac{sum_{i=1}^n |x_i-mu|}{mu n}

در رابطه بالا μmu برابر است با میانگین داده‌ها. در صورتی که مقدار مرکزی معادل میانه است، فرمول به شکل زیر اصلاح خواهد شد:

CMD=i=1nxixˉxˉnCMD=frac{sum_{i=1}^n |x_i-bar{x}|}{bar{x}n}

 که در آن xˉbar{x}

ضریب تغییرات چیست و چگونه محاسبه می‌شود؟

در بخش‌های قبل یاد گرفتیم انحراف معیار و واریانس چه هستند و چگونه محاسبه می‌شوند. انحراف معیار به نوعی اندازه‌گیری مطلقی از پراکندگی محسوب می‌شود که نمی‌توان از آن جهت مقایسه دو مجموعه داده با واحدهای مختلف استفاده کرد. به همین دلیل برای اینکه بتوانیم چنین مقایسه‌ای داشته باشیم، نیاز است از کمیت متفاوتی استفاده کنیم.

مهم‌ترین ضریب پراکندگی، ضریب تغییرات یا CV است که جهت مقایسه دو مجموعه داده از نظر ثبات، میزان سازگاری و همگنی بکار می‌رود. مرسوم است ضریب تغییرات را در قالب درصد بیان کنیم. ضریب تغییرات نوعی اندازه‌گیری نسبی است که توسط «کارل پیرسون» (Karl Pearson) معرفی شد. به همین دلیل، این ضریب را ضریب تغییرات پیرسون هم می‌نامند. فرمول این ضریب پراکندگی به شکل زیر است:

CV=σμ×100%CV=frac{sigma}{mu}times100 %

که در آن σsigma انحراف معیار و μmu میانگین است. تمام توزیع‌ها یا سری‌های داده‌ای که ضریب تغییرات بالایی دارند، معمولا دارای همگنی، سازگاری، ثبات و یکنواختی کمتری هستند. برای اینکه با نحوه محاسبه این ضریب بهتر آشنا شوید، مثال زیر را در نظر بگیرید.

چند توزیع رنگارنگ

فرض کنید دانش‌آموزان دو کلاس امتحان مشابهی داشته‌اند و میانگین نمرات هر دو کلاس برابر با ۷۵ شده است. اگر این کمیت تنها مشخصه مقایسه آماری دو کلاس باشد، احتمالا نتیجه‌گیری شما این خواهد شد که دو کلاس مشابه هم هستند. به‌ویژه اینکه حتی ضریب دامنه دو مجموعه داده ما نیز برابر با ۱۵ است. اما واقعیت این است که داده‌های این بررسی به شکل زیر هستند:

70,70,70,70,85,8570, 70, 70, 70, 85, 85

70,72,73,75,75,8570, 72, 73, 75, 75, 85

اگر یک بررسی اجمالی روی دو گروه داده داشته باشیم، متوجه خواهیم شد که در گروه دوم مقادیر داده‌ها به میانگین یعنی عدد ۷۵ نزدیکتر هستند، در حالی که در گروه اول مقادیر داده‌ها از میانگین دورتر است. پس احتمالا ضریب تغییرات برای گروه اول نسبت به گروه دوم بیشتر است. بیاید با استفاده از فرمول این پیش‌بینی را نشان دهیم. فرمول ضریب پراکندگی در این بخش معادل فرمول ضریب تغییرات و به شکل زیر است:

CV=σμ×100%CV=frac{sigma}{mu}times100 %

پس باید انحراف معیار را محاسبه کنیم. فرمول واریانس را می‌نویسیم و به کمک جداول زیر، قدم به قدم واریانس را برای هر گروه پیدا می‌کنیم. انحراف معیار هم با گرفتن جذر واریانس تعیین می‌شود:

σ2=i=1n(xiμ)2nsigma^2=frac{sum_{i=1}^n (x_i-mu)^2}{n}

محاسبات گروه اول:

xix_i xiμx_i-mu (xiμ)2(x_i-mu)^2
7070 7075=570-75=-5 (5)2=25(-5)^2=25
7070 7075=570-75=-5 (5)2=25(-5)^2=25
7070 7075=570-75=-5 (5)2=25(-5)^2=25
7070 7075=570-75=-5 (5)2=25(-5)^2=25
8585 8575=1085-75=10 (10)2=100(10)^2=100
8585 8575=1085-75=10 (10)2=100(10)^2=100
i=1n(xiμ)2=4(25)+2(100)=300sum_{i=1}^n (x_i-mu)^2=4(25)+2(100)=300

مرحله بعدی این است که آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس برای گروه اول به‌دست آید:

σ2=3006=50Rightarrow sigma^2=frac{300}{6}=50

بنابراین انحراف معیار برای اولین گروه داده برابر است با:

σ=σ2=50=7.07Rightarrow sigma=sqrt{sigma^2}=sqrt{50}=7.07

حالا می‌توانیم ضریب تغییرات گروه اول را محاسبه کنیم:

CV=σμ×100%=7.0775×100%=9.42CV=frac{sigma}{mu}times100 %=frac{7.07}{75}times100 %=9.42

محاسبات گروه دوم:

xix_i xiμx_i-mu (xiμ)2(x_i-mu)^2
7070 7075=570-75=-5 (5)2=25(-5)^2=25
7272 7275=272-75=-2 (2)2=4(-2)^2=4
7373 7375=373-75=-3 (3)2=9(-3)^2=9
7575 7575=075-75=0 (0)2=0(0)^2=0
7575 7575=075-75=0 (0)2=0(0)^2=0
8585 8575=1085-75=10 (10)2=100(10)^2=100
i=1n(xiμ)2=25+4+9+100=138sum_{i=1}^n (x_i-mu)^2=25+4+9+100=138

حالا باید آخرین سلول از ستون سوم جدول بالا را به تعداد داده‌ها تقسیم کنیم تا واریانس برای گروه دوم به‌دست آید:

σ2=1386=23Rightarrow sigma^2=frac{138}{6}=23

بنابراین انحراف معیار برای دومین گروه می‌شود:

σ=σ2=23=4.79Rightarrow sigma=sqrt{sigma^2}=sqrt{23}=4.79

و ضریب تغییرات گروه دوم نیز برابر است با:

CV=σμ×100%=4.7975×100%=6.38CV=frac{sigma}{mu}times100 %=frac{4.79}{75}times100 %=6.38

پس ثابت کردیم که طبق محاسبات هم ضریب تغییرات گروه اول از ضریب تغییرات گروه دوم بیشتر می‌شود و این نتیجه با پیش‌بینی اولیه ما مطابقت دارد. همچنین به اهمیت محاسبه ضریب تغییرات برای بررسی دقیق‌تر دو مجموعه داده پی بردیم و دیدیم که ممکن است حتی با داشتن میانگین و ضریب دامنه مساوی، واریانس و در نتیجه پراکندگی دو مجموعه داده ما کاملا متفاوت باشد.

مثال

میانگین دمای ضبط شده برای یک بازه زمانی پنج روزه در زمستان سال گذشته به‌صورت زیر گزارش شده است:

18,22,19,25,1218, 22, 19, 25, 12

اگر میانگین این داده‌ها برابر با ۱۹٫۲ باشد، ضریب تغییرات را محاسبه کنید:

پاسخ

در این سوال مقدار میانگین داده‌ها داده شده است. پس تقریبا محاسبه آسان‌تری برای ضریب تغییرات با فرمول زیر در پیش داریم:

CV=σμ×100%CV=frac{sigma}{mu}times100 %

ابتدا باید انحراف معیار را پیدا کنیم که از واریانسی با فرمول زیر حاصل می‌شود:

σ2=i=1n(xixˉ)2n1sigma^2=frac{sum_{i=1}^n (x_i-bar{x})^2}{n-1}

xix_i xixˉx_i-bar{x} (xixˉ)2(x_i-bar{x})^2
1818 1819.2=1.218-19.2=-1.2 (1.2)2=1.44(-1.2)^2=1.44
2222 2219.2=2.822-19.2=2.8 (2.8)2=7.84(2.8)^2=7.84
1919 1919.2=0.219-19.2=-0.2 (0.2)2=0.04(-0.2)^2=0.04
2525 2519.2=5.825-19.2=5.8 (5.8)2=33.64(5.8)^2=33.64
1212 1219.2=7.212-19.2=-7.2 (7.2)2=51.84(-7.2)^2=51.84
i=1n(xixˉ)2=94.8sum_{i=1}^n (x_i-bar{x})^2=94.8

دقت کنید چون پنج روز از کل روزهای سال انتخاب شده است، پس باید فرمول واریانس نمونه را استفاده کنیم که در آن مخرج یک واحد کمتر از تعداد کل داده‌ها است. پس در نهایت واریانس برابر می‌شود با:

σ2=94.84=23.7Rightarrow sigma^2=frac{94.8}{4}=23.7

بنابراین انحراف معیار می‌شود:

σ=σ2=23.7=4.9Rightarrow sigma=sqrt{sigma^2}=sqrt{23.7}=4.9

و ضریب تغییرات نیز برابر است با:

CV=σxˉ×100%=4.919.2×100%=25.52CV=frac{sigma}{bar{x}}times100 %=frac{4.9}{19.2}times100 %=25.52

تمرین

اگر مقادیر ضریب تغییرات و انحراف معیار دو سری داده X و Y به‌ترتیب برابر با ٪۵۵٫۴۳ و ٪۴۸٫۸۶ و ۲۵٫۵ و ۲۴٫۴۳ باشند، میانگین این دو سری داده به‌ترتیب برابر با کدام گزینه است؟

گزینه دوم صحیح است. می‌دانیم فرمول محاسبه ضریب تغییرات به‌صورت زیر است:

CV=σμ×100%CV=frac{sigma}{mu}times100 %

بنابراین اگر میانگین را در این فرمول بخواهیم، داریم:

μ=σCV×100%Rightarrow mu=frac{sigma}{CV}times100 %

ابتدا برای سری داده X میانگین را به‌دست می‌آوریم:

μ=25.555.43×100%=46Rightarrow mu=frac{25.5}{55.43}times100 %=46

سپس برای سری داده Y میانگین را به‌دست می‌آوریم:

μ=24.4348.86×100%=50Rightarrow mu=frac{24.43}{48.86}times100 %=50

ضریب انحراف چارک چیست و چگونه محاسبه می‌شود؟

در بخش‌های قبل یاد گرفتیم انحراف چارک اندازه مطلقی از پراکندگی برای داده‌هایی با واحد مشابه را به ما می‌دهد. اما برای مقایسه تنوع دو یا تعداد بیشتری توزیع داده که در قالب واحدهای مختلفی بیان می‌شوند، نیاز داریم یک اندازه‌گیری نسبی روی پراکندگی داشته باشیم. به این منظور باید یک ضریب پراکندگی جدید به نام ضریب انحراف چارک یا CQD را محاسبه کنیم. برای محاسبه این ضریب کافی است ابتدا انحراف چارک را محاسبه کنیم و سپس آن را به مجموع مقادیر چارک اول و سوم تقسیم کنیم:

CQD=Q3Q1Q3+Q1CQD=frac{Q_3-Q_1}{Q_3+Q_1}

که در آن چارک بالا یا Q3 برابر است با اندازه آیتم 3(n+14)3(frac{n+1}{4})

تصویری زا چند توزیع نرمال رنگارنگ

مثال

اگر داده‌هایی به‌صورت زیر داشته باشیم، ضریب انحراف چارک چقدر است؟

داده فراوانی
1010 99
2222 1515
2424 2929
3131 2424
3636 33
4343 2727

پاسخ

در این سوال داده‌های گروه‌بندی شده داریم. پس لازم است در اولین قدم پس از مرتب کردن داده‌ها، فراوانی تجمعی را به‌دست آوریم:

داده فراوانی فراوانی تجمعی
1010 99 99
2222 1515 9+15=249+15=24
2424 2929 24+29=5324+29=53
3131 2424 53+24=7753+24=77
3636 33 77+3=8077+3=80
4343 2727 80+27=10780+27=107

بنابراین با در نظر گرفتن n برابر با ۱۰۷ ادامه می‌دهیم. اولین قدم محاسبه چارک اول است که برابر می‌شود با اندازه آیتم 3(n+14)3(frac{n+1}{4})

3(107+14)=273(frac{107+1}{4})=27

آیتم بیست و هفتم در داده‌ها بین ۲۴ و ۵۳ در ستون سوم قرار دارد و داده معادل آن می‌شود ۲۴. پس چارک پایین برابر است با:

Q1=24Q_1=24

حالا می‌رویم سراغ چارک بالا که برابر است با اندازه آیتم 3(n+14)3(frac{n+1}{4})

3(107+14)=813(frac{107+1}{4})=81

آیتم هشتاد و یکم در ستون سوم جدول بین ۸۰ و ۱۰۷ قرار دارد. پس داده معادل با آن ۴۳ است:

Q3=43Q_3=43

با داشتن چارک‌های بالا و پایین و با نوشتن فرمول ضریب انحراف چارک، به‌راحتی کمیت موردنظر در سوال محاسبه می‌شود:

CQD=Q3Q1Q3+Q1CQD=frac{Q_3-Q_1}{Q_3+Q_1}

CQD=432443+24=1967=0.28Rightarrow CQD=frac{43-24}{43+24}=frac{19}{67}=0.28

اندازه‌گیری پراکندگی و تمایل مرکزی

پس از اینکه انواع ضریب پراکندگی و فرمول محاسبه هر کدام را کاملا آموختیم، در این بخش می‌خواهیم اندازه‌گیری پراکندگی را با بررسی تمایل مرکزی مقایسه کنیم و ببینیم فواید و کاربرد هر کدام به چه صورت است. اندازه‌گیری پراکندگی و تمایل مرکزی هر دو جزء روش‌هایی هستند که برای توصیف داده‌ها بکار می‌روند. همچنین رابطه این دو اندازه‌گیری به این صورت است که هر چه پراکندگی داده‌های ما در یک توزیع کمتر باشد، تمایل مرکزی بیشتر است.

اما باید به تفاوت این دو نیز کاملا آگاه باشیم. تفاوت‌های این دو اندازه‌گیری عبارت‌اند از:

  • تمایل مرکزی برای اعدادی بکار می‌رود که یک توصیف کمی از خواص مجموعه داده ما ارائه می‌دهند، در حالی که اندازه پراکندگی به منظور کمی‌سازی تنوع پراکندگی داده‌ها بکار می‌رود.
  • اندازه‌گیری تمایل مرکزی با محاسبه کمیت‌هایی مانند میانگین، میانه و مد انجام می‌شود.
  • اندازه‌گیری پراکندگی شامل پارامترهای بیشتری مثل دامنه، واریانس، انحراف معیار، انحراف میانگین و انحراف چارک است که برای محاسبه برخی از این پارامترها، نیاز داریم ابتدا میانگین، میانه یا مد را به‌دست آوریم.

مسیر یادگیری کابردهای آمار و احتمال با فرادرس

با توجه به اینکه برای درک بهتر شاخه‌های جدید علم مانند «علم داده» (Data Science) نیاز به دانش قوی در زمینه مقدمات آمار و پراکندگی دارید، بنابراین در این بخش قصد داریم چند فیلم آموزشی مهم در رابطه با مباحث آمار و احتمال که با حوزه علم داده مرتبط است، به شما معرفی کنیم:

مجموعه فیلم های آموزش آمار فرادرس
برای مشاهده مجموعه فیلم‌های آموزش آمار و احتمال از دروس دانشگاهی تا کاربردی فرادرس، روی تصویر کلیک کنید.
  1. فیلم آموزش آمار و احتمال مهندسی جامع و با مثال های مختلف فرادرس
  2. فیلم آموزش آمار ریاضی ۲ – آزمون فرض فرادرس
  3. فیلم آموزش مبانی احتمال مرور و حل تست کنکور ارشد فرادرس
  4. فیلم آموزش رایگان انواع داده در کامپیوتر فرادرس
  5. فیلم آموزش مفاهیم آماری در داده کاوی و پیاده سازی آن در پایتون Python فرادرس
  6. فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python بخش یکم فرادرس

همچنین در لیست زیر برخی از کاربردی‌ترین دوره‌های فرادرس را که شامل مفاهیم آماری در زمینه یادگیری ماشین، نحوه کار با نرم‌افزارهای آماری مانند اکسل یا SPSS می‌شوند را مشاهده می‌کنید:

  1. مجموعه آموزش اس پی اس اس SPSS – مقدماتی تا پیشرفته فرادرس
  2. فیلم آموزش آنالیز واریانس با اس پی اس اس SPSS فرادرس
  3. فیلم آموزش آمار مرور و حل سوالات آزمون های استخدامی فرادرس
  4. فیلم آموزش رایگان درخت تصمیم در یادگیری ماشین فرادرس
  5. فیلم آموزش محاسبات آماری در اکسل Excel فرادرس

جمع‌بندی

در این مطلب از مجله فرادرس آموختیم انواع مختلف فرمول ضریب پراکندگی چگونه تعریف می‌شوند. همچنین یاد گرفتیم درک مفهوم پراکندگی به ما نشان می‌دهد نحوه توزیع داده‌ها در یک مجموعه داده چگونه است و برای اینکه بتوانیم آن را اندازه‌گیری کنیم، نیاز است کمیت‌های مختلفی محاسبه شوند. در جدول زیر، خلاصه‌ای از تمام فرمول‌های مورد نیاز در بررسی، اندازه‌گیری و تحلیل پراکندگی را جمع‌آوری کرده‌ایم:

ضریب پراکندگی اندازه‌گیری نسبی پراکندگی اندازه‌گیری مطلق پراکندگی
ضریب دامنه (QR) QR=LSL+SQR=frac{L-S}{L+S} R=LSR=L-S
ضریب انحراف میانگین (CMD) CMD=i=1nxiμμnCMD=frac{sum_{i=1}^n |x_i-mu|}{mu n} MD=i=1nxiμnMD=frac{sum_{i=1}^n |x_i-mu|}{n}
ضریب تغییرات (CV) CV=σμ×100%CV=frac{sigma}{mu}times100 % σ2=i=1n(xiμ)2nsigma^2=frac{sum_{i=1}^n (x_i-mu)^2}{n}
ضریب انحراف چارک (CQD) CQD=Q3Q1Q3+Q1CQD=frac{Q_3-Q_1}{Q_3+Q_1} QD=Q3Q12QD=frac{Q_3-Q_1}{2}

source

توسط expressjs.ir