با گسترش استفاده از ابزارهای هوش مصنوعی در زندگی روزمره، شرکتهای فناوری سرمایهگذاری گستردهای برای تقویت سیستمهای ایمنی انجام دادهاند. این سیستمها طراحی شدهاند تا مدلهای زبانی را از ارائه اطلاعات خطرناک، غیرقانونی یا مضر بازدارند. اما یک تحقیق جدید نشان میدهد که حتی پیشرفتهترین این محافظتها نیز میتوانند با چیزی بهسادگی یک شعر زیرکانه دور زده شوند.
طبق مطالعهای که توسط آزمایشگاه Icaro Lab و با عنوان «شعر بهعنوان مکانیزم جهانی و تکمرحلهای برای دور زدن محافظتهای مدلهای زبانی» منتشر شده، محققان دریافتند که نوشتن درخواستها بهصورت شعر میتواند مدلهای زبانی بزرگ (LLM) را ترغیب کند تا از قوانین ایمنی خود چشمپوشی کنند.
شعر؛ ابزاری قدرتمند برای دور زدن محدودیتها
این پژوهش نشان میدهد که «فرم شعری، عملکردی مشابه یک عملگر عمومی برای دور زدن محدودیتها» دارد. آزمایشها حاکی از آن است که این روش در ۶۲ درصد موارد موفق شده مدلها را به تولید محتوایی وادار کند که باید مسدود میشد؛ حتی موضوعات بسیار خطرناک مانند آموزش ساخت سلاح هستهای، تولید محتوای سوءاستفاده از کودکان و دستورالعملهای مرتبط با خودآسیبرسانی.
کدام مدلها آسیبپذیرتر بودند؟
گزارش منتشر شده اشاره میکند که تیم پژوهشی مدلهای مختلفی از جمله GPT شرکت OpenAI، مدلهای Google Gemini، Anthropic Claude و دیگر سیستمهای مطرح را آزمایش کرده است. نتایج نشان میدهد:
- Google Gemini، DeepSeek و MistralAI بیشترین احتمال را داشتند که محدودیتها را دور بزنند.
- GPT-5 و Claude Haiku 4.5 در برابر این روش مقاومترین عملکرد را داشتهاند.
این یافتهها نگرانیهایی درباره نحوه سوءاستفاده از مدلهای هوش مصنوعی و ضرورت توسعه راهکارهای حفاظتی جدید ایجاد کرده است.
جزئیات فنی منتشر نشده است
محققان اعلام کردهاند شعرهایی که در آزمایشها استفاده شدهاند «بیش از حد خطرناک» هستند و نمیتوان آنها را بهصورت عمومی منتشر کرد. به همین دلیل مقاله تنها یک نمونه ضعیف و بیخطر ارائه کرده تا صرفاً ایده کلی روش را نشان دهد.
این مطالعه، بار دیگر هشدار میدهد که حتی قدرتمندترین ابزارهای ایمنی در هوش مصنوعی همچنان میتوانند نسبت به حملات خلاقانه و غیرمنتظره آسیبپذیر باشند و نیاز به بهبود مستمر در این حوزه بیش از هر زمان دیگری احساس میشود.
