– میانگین، مد و میانه چیست؟
– منظور از داده های خارج از محدود در شرط بندی (outliers) چیست و چطور باید با آنها برخورد کرد

یکی از محبوب ترین روشهای ارزیابی داده ها برای شرط بندی استفاده از میانگین است، اما آیا کاربردی ترین روش است؟ مد و میانه معمولا گزینه های بهتری هستند، پس آشنایی با این مفاهیم هم برای شرط بندی موفق ضروری است.

مساله‌ی “میانگین” برای شرط بندان

بخاطر سادگی میانگین خیلی از شرط بندان ورزشی از آن برای سنجش یک عملکرد از نظر آماری استفاده میکنند. اما چند نفر از محدودیتهای آن خبر دارند؟

برای مثال، شرط بندان وقتی در بازار مجموع گل‌ها برای بازی فوتبال شرط بندی میکنند اعتقاد دارند که اگر میانگین تعداد گلهای زده شده در بازی‌های قبلی را محاسبه کنند میتوانند تعداد دقیق گلهای مورد انتظار در بازی بعدی را اندازه گیری کنند. اما آیا این میانگین واقعا مناسب است؟

اگرچه با میانگین به یک تصویر کلی میرسید اما نمیتوان با میانگین به شکل توزیع رسید.

به عنوان مثال بیایید نگاهی بیاندازیم به تعداد گل های زده شده در لیگ برتر و لیگ لالیگا در فصل ۲۰۱۳/۲۰۱۴٫ میانگین گلهای زده شده در هر بازی برای هر لیگ به ترتیب ۲٫۷۷ و ۲٫۷۵ است. با این اعداد و ارقام شاید شرط بندان فکر کنند که گلزنی کمتر از ۲٫۵ گل در بازیهای لالیگا نسبت به EPL رایجتر است. اما اینگونه نیست. در ۴۸٫۴% از بازیهای EPL کمتر از ۲٫۵ گل زده میشود درحالیکه این رقم در لالیگا ۴۷٫۳% است.

با نگاهی به شکل زیر مشخص است که با اینکه که توزیع اعداد مشابه است، اما رایجترین تعداد گل زده شده در لیگ برتر دو گل در هر بازی است، درحالیکه رایجترین تعداد گل زده شده در لالیگا سه گل در هر بازی است. میانگین این حقیقت را پنهان میکند.

اما چرا اینگونه است؟ اگرچه میانگین ما را به تصویری کلی میرساند اما شکل توزیع را نشان نمیدهد.

مثال دیگری از خطر استفاده از میانگین این است که از آن برای ارزیابی هندیکپ ها در کشورهای minnow فوتبال بین المللی است آنها را “پسران شلاق زن” در هر کمپین انتخابی میدانند. اما آیا آنها به همان اندازه که به نظر میرسد بد هستند؟ با اینکه میانگین مجموع گل هر کشور در هر بازی میتواند عدد بزرگی باشد، اما به ندرت پیش میاید که این عدد با دفاع گاه به گاه اما سنگین تحریف شود، و در نتیجه شرط بندان تعداد گلهای مورد انتظار را بیشتر از حد برآورد میکنند.

در ادامه جایگزین‌های میانگین را بررسی میکنیم – مد و میانه – و از سه مجموعه اعداد برای نشان دادن دو سناریو استفاده میکنیم که در آنها استفاده از میانگین کافی نیست.

مجموعه اعداد زیر را در نظر بگیرید که هر یک به طور متوسط ​​پنج عدد دارند.

مجموعه آ : ۴, ۵, ۵, ۵, ۶

مجموعه‌ ی ب : ۳, ۴, ۴, ۴, ۱۰

مجموعه‌ ی ث : ۳, ۴, ۵, ۶, ۷

سناریوی اول: داده های خارج از محدوده در انتهای بالاتر / پایینتر

اگرچه این سه مجموعه میانگین یکسانی دارند و جمع اعداد هر سه مجموعه ۲۵ است، اما توزیع کاملا متفاوتی دارند.

مجموعه ‌ی A را میتوان در گروه توزیع متقارن طبقه بندی کرد – در هر انتهای میانگین یک عدد وجود دارد، زیرا ۴ پایینتر از میانگین و ۶ بالاتر از میانگین است.

استفاده از میانگین زمانی ایده آل است که توزیع اعداد متقارن باشد – یعنی وضعیتی که فراوانی مقادیر متغیرها در هر دو طرف میانگین یکسان باشد، و میانگین دقیقا در وسط مجموعه‌ی مقادیر قرار بگیرد.

در مقابل، در مجموعه ‌ی B چهار عدد وجود دارد که کمتر از میانگین است، و فقط یک عدد بیشتر از میانگین وجود دارد. به این توزیع، توزیع چوله ای میگویند.

شرط بندان باید با درک محدودیتهای میانگین بدانند که مناسب ترین زمان برای استفاده از میانگین در پیش بینی چه زمانی است

شرط بندان میتوانند هنگام استفاده از مجموعه داده های بزرگ مناسب بودن میانگین را با استفاده ازمعیارهای دیگری مثل میانه یا مد تست کنند.

میانه مقداری است که وقتی اعداد را به ترتیب نزولی یا صعودی مرتب کنیم در وسط توزیع قرار میگیرد. در مجموعه‌های A و B، به ترتیب عدد ۵ و ۴ میانه هستند. مد پر تکرار ترین عدد است، که باز هم به ترتیب پنج و چهار است.

توزیع متقارن باید از نظر ریاضی، میانگین، میانه و مد یکسانی داشته باشد. تفاوت بین عدد ۲ دوم و میانه در مجموعه‌ی B نشان میدهد که توزیع این مجموعه یک توزیع چوله ای است و نمیتواند معیار ایده‌آلی باشد.

سناریوی دوم: توزیع مختلف

دو مجموعه ممکن است توزیعی متقارن اما متفاوتی داشته باشند. برای مثال مجموعه‌ی C هم مانند مجموعه‌ی A توزیع متقارنی دارد زیرا اعداد پایینتر و بالاتر از میانگین در این مجموعه برابر هستند، و تفاوتی که با میانگین وجود دارد در هر دو طرف یکسان است. اما با اینکه میانگین هر دو پنج است، این میانگین برای مجموعه ی A معیار بهتری است زیرا تعداد عدادی که به میانگین نزدیک هستند در مجموعه‌ی  A بیشتر است. تفاوت بین این دو مجموعه در پراکندگی گروه است. بنابراین باید پراکندگی را هم در نظر بگیریم.

شرط بندان برای این کار میتوانند دامنه و انحراف معیار را محاسبه کنند. محاسبه‌ی دامنه – تفاوت بین حداکثر و حداقل مقدار – آسان است. از طرف دیگر انحراف معیار پیچیده تر است. در واقع انحراف معیار تفاوتی که مجموعه‌ی داده از میانگین دارد را محاسبه میکند. توجه داشته باشید که در یک مقاله‌ی دیگر مفصل در مورد توزیع ها صحبت خواهیم کرد و در همان مقاله با جزئیات بیشتری به انحراف معیار میپردازیم.

این مقاله را میتوانید در این لینک ببینید.

دامنه ی مجموعه های A و C به ترتیب دو و چهار است در حالیکه انحراف معیار آنها به ترتیب ۰٫۷۱ و ۱٫۵۸ است. هر دوی این معیارها در مجموعه‌ی C بزرگتر است و این مساله هم نشان میدهد که در گروه دوم تفاوت بیشتری وجود دارد.

نتیجه گیری

شرط بندان باید با درک محدودیتهای میانگین – توزیع های چوله ای و معیارهای متفاوت پراکندگی – بدانند که مناسب ترین زمان برای استفاده از میانگین در پیش بینی چه زمانی است. هرچند تحقیق کاملی در مورد صلاحیت استفاده از میانگین صورت نگرفته اما میتوان با قطعیت گفت که در استفاده از آن باید محتاط بود و معیارهای دیگری را هم در نظر گرفت.

دومینیک کورتیس، مدرس گروه ریاضیات در دانشگاه لستر و استادیار دانشگاه مالت است. او یک عضو فعال دانشگاهی است و در تحقیقاتش روی تحلیل‌های ورزشی و همچنین استباطهای مالی و شرط بندی تمرکز دارد.


منبع مقاله : پیناکل

ترجمه اختصاصی از فوتبالی