به گزارش رکنا، مدل هوش مصنوعی Maverick شرکت متا که بهتازگی بهعنوان نسخهای پیشرفته از خانواده Llama 4 رونمایی شده بود، توجهات زیادی را به خود جلب کرد، اما نه به شکلی که انتظار میرفت. در روزهای گذشته مشخص شد که متا برای ثبت امتیاز بالا در بنچمارک LM Arena، از نسخه آزمایشی و منتشرنشده مدل Maverick استفاده کرده است. این اقدام باعث شد که LM Arena مجبور به عذرخواهی رسمی شود و سیاستهای خود را تغییر دهد تا امتیازدهیها بر اساس نسخههای اصلی و اصلاحنشده مدلهای هوش مصنوعی انجام پذیرد.
عملکرد ضعیف و جایگاه پایین در میان رقبا
نسخه رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، نتوانست انتظارات را برآورده کند و جایگاهی پایینتر از مدلهای رقیب نظیر GPT-4o، Claude 3.5 Sonnet و جمینای ۱٫۵ پرو به دست آورد. مدلهایی که پیشتر و طی ماههای گذشته معرفی شده بودند، در این بنچمارک عملکردی بهتر از Maverick ثبت کردند.
علت عملکرد ضعیف Maverick اصلی چیست؟
سؤال مهم این است که چرا نسخه اصلی Maverick چنین عملکرد ضعیفی داشت؟ طبق اعلام متا، نسخه آزمایشی این مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته میشود، برای مکالمهسازی بهینهسازی شده بود. این بهینهسازیها در پلتفرم LM Arena باعث موفقیت نسبی شدند، زیرا این پلتفرم مبتنی بر مقایسه و انتخاب پاسخهای بهتر توسط انسانها عمل میکند.
تاثیر سیاستهای بنچمارک بر توسعه مدلها
با این حال، پلتفرم LM Arena هرگز نمیتواند معیاری مطمئن برای ارزیابی عملکرد واقعی مدلها باشد. بهینهسازی مدلهای هوش مصنوعی تنها برای موفقیت در یک بنچمارک خاص نهتنها گمراهکننده است، بلکه امکان درک دقیق قابلیتهای مدل در شرایط و سناریوهای مختلف را برای توسعهدهندگان دشوار میکند.
source