عدم موفقیت مدل هوش مصنوعی Maverick متا در رقابت‌ های بنچمارک علمی

به گزارش رکنا، مدل هوش مصنوعی Maverick شرکت متا که به‌تازگی به‌عنوان نسخه‌ای پیشرفته از خانواده Llama 4 رونمایی شده بود، توجهات زیادی را به خود جلب کرد، اما نه به شکلی که انتظار می‌رفت. در روزهای گذشته مشخص شد که متا برای ثبت امتیاز بالا در بنچمارک LM Arena، از نسخه آزمایشی و منتشرنشده مدل Maverick استفاده کرده است. این اقدام باعث شد که LM Arena مجبور به عذرخواهی رسمی شود و سیاست‌های خود را تغییر دهد تا امتیازدهی‌ها بر اساس نسخه‌های اصلی و اصلاح‌نشده مدل‌های هوش مصنوعی انجام پذیرد.

عملکرد ضعیف و جایگاه پایین در میان رقبا

نسخه رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، نتوانست انتظارات را برآورده کند و جایگاهی پایین‌تر از مدل‌های رقیب نظیر GPT-4o، Claude 3.5 Sonnet و جمینای ۱٫۵ پرو به دست آورد. مدل‌هایی که پیشتر و طی ماه‌های گذشته معرفی شده بودند، در این بنچمارک عملکردی بهتر از Maverick ثبت کردند.

علت عملکرد ضعیف Maverick اصلی چیست؟

سؤال مهم این است که چرا نسخه اصلی Maverick چنین عملکرد ضعیفی داشت؟ طبق اعلام متا، نسخه آزمایشی این مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته می‌شود، برای مکالمه‌سازی بهینه‌سازی شده بود. این بهینه‌سازی‌ها در پلتفرم LM Arena باعث موفقیت نسبی شدند، زیرا این پلتفرم مبتنی بر مقایسه و انتخاب پاسخ‌های بهتر توسط انسان‌ها عمل می‌کند.

تاثیر سیاست‌های بنچمارک بر توسعه مدل‌ها

با این حال، پلتفرم LM Arena هرگز نمی‌تواند معیاری مطمئن برای ارزیابی عملکرد واقعی مدل‌ها باشد. بهینه‌سازی مدل‌های هوش مصنوعی تنها برای موفقیت در یک بنچمارک خاص نه‌تنها گمراه‌کننده است، بلکه امکان درک دقیق قابلیت‌های مدل در شرایط و سناریوهای مختلف را برای توسعه‌دهندگان دشوار می‌کند.

source

EXPRESSJS - مجله تکنولوژی نرم افزار و سخت افزار

توسطexpressjs.ir

عملکرد ضعیف و جایگاه پایین در میان رقبا

علت عملکرد ضعیف Maverick اصلی چیست؟

تاثیر سیاست‌های بنچمارک بر توسعه مدل‌ها

توسط expressjs.ir

پست های مرتبط

آواز شاد؛ دختربچه ی فندق جوری رقصید که قند تو دل مردم خیابون آب شد

هم‌نشینی گیم و سینما؛ فیلم های اقتباس شده از بازی های ویدیویی که باید منتظرشان باشیم

MedCalc 23.3.2

You missed

آواز شاد؛ دختربچه ی فندق جوری رقصید که قند تو دل مردم خیابون آب شد

هم‌نشینی گیم و سینما؛ فیلم های اقتباس شده از بازی های ویدیویی که باید منتظرشان باشیم

MedCalc 23.3.2

ماهواره «ناهید ۲» در مدار ۵۰۰ کیلومتری آرام گرفت

EXPRESSJS - مجله تکنولوژی نرم افزار و سخت افزار