با گسترش استفاده از ابزارهای هوش مصنوعی در زندگی روزمره، شرکت‌های فناوری سرمایه‌گذاری گسترده‌ای برای تقویت سیستم‌های ایمنی انجام داده‌اند. این سیستم‌ها طراحی شده‌اند تا مدل‌های زبانی را از ارائه اطلاعات خطرناک، غیرقانونی یا مضر بازدارند. اما یک تحقیق جدید نشان می‌دهد که حتی پیشرفته‌ترین این محافظت‌ها نیز می‌توانند با چیزی به‌سادگی یک شعر زیرکانه دور زده شوند.

طبق مطالعه‌ای که توسط آزمایشگاه Icaro Lab و با عنوان «شعر به‌عنوان مکانیزم جهانی و تک‌مرحله‌ای برای دور زدن محافظت‌های مدل‌های زبانی» منتشر شده، محققان دریافتند که نوشتن درخواست‌ها به‌صورت شعر می‌تواند مدل‌های زبانی بزرگ (LLM) را ترغیب کند تا از قوانین ایمنی خود چشم‌پوشی کنند.

شعر؛ ابزاری قدرتمند برای دور زدن محدودیت‌ها

این پژوهش نشان می‌دهد که «فرم شعری، عملکردی مشابه یک عملگر عمومی برای دور زدن محدودیت‌ها» دارد. آزمایش‌ها حاکی از آن است که این روش در ۶۲ درصد موارد موفق شده مدل‌ها را به تولید محتوایی وادار کند که باید مسدود می‌شد؛ حتی موضوعات بسیار خطرناک مانند آموزش ساخت سلاح هسته‌ای، تولید محتوای سوءاستفاده از کودکان و دستورالعمل‌های مرتبط با خودآسیب‌رسانی.

کدام مدل‌ها آسیب‌پذیرتر بودند؟

گزارش منتشر شده اشاره می‌کند که تیم پژوهشی مدل‌های مختلفی از جمله GPT شرکت OpenAI، مدل‌های Google Gemini، Anthropic Claude و دیگر سیستم‌های مطرح را آزمایش کرده است. نتایج نشان می‌دهد:

  • Google Gemini، DeepSeek و MistralAI بیشترین احتمال را داشتند که محدودیت‌ها را دور بزنند.
  • GPT-5 و Claude Haiku 4.5 در برابر این روش مقاوم‌ترین عملکرد را داشته‌اند.

این یافته‌ها نگرانی‌هایی درباره نحوه سوءاستفاده از مدل‌های هوش مصنوعی و ضرورت توسعه راهکارهای حفاظتی جدید ایجاد کرده است.

جزئیات فنی منتشر نشده است

محققان اعلام کرده‌اند شعرهایی که در آزمایش‌ها استفاده شده‌اند «بیش از حد خطرناک» هستند و نمی‌توان آن‌ها را به‌صورت عمومی منتشر کرد. به همین دلیل مقاله تنها یک نمونه ضعیف و بی‌خطر ارائه کرده تا صرفاً ایده کلی روش را نشان دهد.

این مطالعه، بار دیگر هشدار می‌دهد که حتی قدرتمندترین ابزارهای ایمنی در هوش مصنوعی همچنان می‌توانند نسبت به حملات خلاقانه و غیرمنتظره آسیب‌پذیر باشند و نیاز به بهبود مستمر در این حوزه بیش از هر زمان دیگری احساس می‌شود.

source

توسط expressjs.ir