گوگل دیپمایند و کگل با معرفی «Kaggle Gaming Arena»، روش جدیدی برای سنجش هوش مصنوعی مبتنی بر بازیهای استراتژیک مانند شطرنج و پوکر ایجاد کردهاند. این پلتفرم با سیستم رتبهبندی پویای Elo، توانایی مدلها در استدلال، سازگاری و برنامهریزی را میسنجد و جایگزین معیارهای سنتی ایستا شده است.
در یک گام مهم برای تغییر روش ارزیابی هوش مصنوعی، Google DeepMind با همکاری Kaggle از پلتفرمی جدید به نام Kaggle Gaming Arena رونمایی کردهاند؛ بستری عمومی برای آزمایش مدلهای هوش مصنوعی از طریق رقابت در بازیهایی مثل شطرنج، گو، پوکر و بازیهای استراتژیک دیگر.
بر خلاف روشهای سنتی که مبتنی بر دادههای ایستا و تستهای ثابت هستند، این پلتفرم یک محیط پویا، زنده و در حال تغییر است. هدف اصلی آن، سنجش توانایی مدلها در استدلال، برنامهریزی و تطبیق در شرایط واقعی و رقابتی است.
چرا دیگر تستهای قدیمی کافی نیستند؟
برای سالها، مدلهای هوش مصنوعی با معیارهایی مانند ImageNet، GLUE یا MMLU سنجیده میشدند. این تستها کمک زیادی به پیشرفت فناوری کردند، اما اکنون مدلها در آنها به دقتهای نزدیک به ۱۰۰٪ رسیدهاند، و دیگر نمیتوانند تفاوت واقعی بین مدلها را نشان دهند.
در عوض، بازیها مانند شطرنج و پوکر، چالشهایی پیچیده و باز هستند که نیاز به تفکر، تطبیقپذیری، پیشبینی و مدیریت عدم قطعیت دارند. موفقیت در این محیطها تنها به «پاسخ درست» وابسته نیست، بلکه به عملکرد مداوم و استراتژیک در برابر حریفان گوناگون بستگی دارد.
Kaggle Gaming Arena چگونه کار میکند؟
در این پلتفرم، هر مدل هوش مصنوعی که وارد رقابت میشود، با تمام مدلهای دیگر در صدها بازی شبیهسازیشده روبهرو میشود. نتایج این رقابتها با استفاده از یک سیستم امتیازدهی پویا (مشابه سیستم Elo در شطرنج) رتبهبندی میشوند.
تمام محیطهای بازی، متنباز و شفاف هستند. توسعهدهندگان و پژوهشگران از سراسر جهان میتوانند نتایج را بازتولید کنند یا مدلهای خود را در همین محیط آزمایش کنند.
این پلتفرم همچنین بهطور مداوم در حال توسعه است. بازیهای جدید بهمرور اضافه میشوند؛ از بازیهای کلاسیک نوبتی مثل شطرنج و گو گرفته تا بازیهایی با اطلاعات ناقص مثل پوکر و Werewolf. در آینده، محیطهایی پیچیدهتر برای ارزیابی مهارتهایی مثل همکاری، فریب، آیندهنگری و تصمیمگیری بلندمدت نیز فراهم خواهد شد.
رقابت شطرنج: شروعی برای این تحول
برای آغاز کار، Google DeepMind یک مسابقه شطرنج سهروزه برگزار کرده که در آن ۸ مدل برتر هوش مصنوعی حضور دارند:
-
Gemini 2.5 Pro و Gemini 2.5 Flash (گوگل)
-
o3 و o4-mini (OpenAI)
-
Claude Opus 4 (Anthropic)
-
Grok 4 (xAI)
-
DeepSeek-R1
-
Kimi 2-K2 Instruct (Moonshot)
برخلاف مدلهای قدیمی که از موتورهای شطرنج مانند Stockfish استفاده میکردند، این مدلها باید تمام حرکات را با تکیه بر توانایی زبانی خود تولید کنند، بدون کمک از موتورهای خارجی.
هر حرکت باید ظرف ۶۰ دقیقه انجام شود، و حرکتهای غیرقانونی پس از سه بار خطا جریمه خواهند شد.
مسابقات بهصورت تکحذفی برگزار میشود (تا چهار بازی در هر رقابت) و بهصورت زنده در Kaggle.com با تفسیر هیکارو ناکامورا، لوی روزمن و مگنوس کارلسن پخش میشود.
رتبهبندی زنده، رقابت واقعی
قلب اصلی این پلتفرم، تابلوی امتیازات زنده و دائم آن است. این سیستم همزمان با عرضه مدلهای جدید یا ارتقاء مدلهای موجود، رتبهها را بهروزرسانی میکند.
برخلاف آزمونهای ایستا که فقط یکبار نتایج میدهند، این رتبهبندی همیشه در حال تغییر است و نمایانگر عملکرد واقعی در طول زمان است.
خبر خوب اینکه هر کسی میتواند در این رقابت شرکت کند؛ چه پژوهشگر، چه توسعهدهنده مستقل. این یک فضای کاملاً عمومی و شفاف برای آزمایش استدلال و هوش عمومی است.
چرا این حرکت مهم است؟
با گسترش توانایی مدلها در فهم متن، تصویر، صدا و فراتر از آن، سنجش «درک واقعی» آنها سختتر شده است. دیگر نمیتوان فقط با یک تست ثابت فهمید که یک مدل چقدر هوشمند است.
اما بازیها – به دلیل داشتن تاکتیک، هدف بلندمدت، اطلاعات پنهان و رقابت – تصویری واقعیتر از تواناییهای عمومی مدلها ارائه میدهند.
Kaggle Gaming Arena شاید راهحل نهایی نباشد، اما گامی مهم در مسیر ساختن یک معیار جدید برای سنجش “نحوه فکر کردن” مدلهای هوش مصنوعی است – نه فقط آنچه میدانند.
source