ChatGPT و Gemini با شعر فریب می‌خورند و پاسخ‌های آسیب‌زا می‌دهند

با گسترش استفاده از ابزارهای هوش مصنوعی در زندگی روزمره، شرکت‌های فناوری سرمایه‌گذاری گسترده‌ای برای تقویت سیستم‌های ایمنی انجام داده‌اند. این سیستم‌ها طراحی شده‌اند تا مدل‌های زبانی را از ارائه اطلاعات خطرناک، غیرقانونی یا مضر بازدارند. اما یک تحقیق جدید نشان می‌دهد که حتی پیشرفته‌ترین این محافظت‌ها نیز می‌توانند با چیزی به‌سادگی یک شعر زیرکانه دور زده شوند.

طبق مطالعه‌ای که توسط آزمایشگاه Icaro Lab و با عنوان «شعر به‌عنوان مکانیزم جهانی و تک‌مرحله‌ای برای دور زدن محافظت‌های مدل‌های زبانی» منتشر شده، محققان دریافتند که نوشتن درخواست‌ها به‌صورت شعر می‌تواند مدل‌های زبانی بزرگ (LLM) را ترغیب کند تا از قوانین ایمنی خود چشم‌پوشی کنند.

شعر؛ ابزاری قدرتمند برای دور زدن محدودیت‌ها

این پژوهش نشان می‌دهد که «فرم شعری، عملکردی مشابه یک عملگر عمومی برای دور زدن محدودیت‌ها» دارد. آزمایش‌ها حاکی از آن است که این روش در ۶۲ درصد موارد موفق شده مدل‌ها را به تولید محتوایی وادار کند که باید مسدود می‌شد؛ حتی موضوعات بسیار خطرناک مانند آموزش ساخت سلاح هسته‌ای، تولید محتوای سوءاستفاده از کودکان و دستورالعمل‌های مرتبط با خودآسیب‌رسانی.

کدام مدل‌ها آسیب‌پذیرتر بودند؟

گزارش منتشر شده اشاره می‌کند که تیم پژوهشی مدل‌های مختلفی از جمله GPT شرکت OpenAI، مدل‌های Google Gemini، Anthropic Claude و دیگر سیستم‌های مطرح را آزمایش کرده است. نتایج نشان می‌دهد:

Google Gemini، DeepSeek و MistralAI بیشترین احتمال را داشتند که محدودیت‌ها را دور بزنند.
GPT-5 و Claude Haiku 4.5 در برابر این روش مقاوم‌ترین عملکرد را داشته‌اند.

این یافته‌ها نگرانی‌هایی درباره نحوه سوءاستفاده از مدل‌های هوش مصنوعی و ضرورت توسعه راهکارهای حفاظتی جدید ایجاد کرده است.

جزئیات فنی منتشر نشده است

محققان اعلام کرده‌اند شعرهایی که در آزمایش‌ها استفاده شده‌اند «بیش از حد خطرناک» هستند و نمی‌توان آن‌ها را به‌صورت عمومی منتشر کرد. به همین دلیل مقاله تنها یک نمونه ضعیف و بی‌خطر ارائه کرده تا صرفاً ایده کلی روش را نشان دهد.

این مطالعه، بار دیگر هشدار می‌دهد که حتی قدرتمندترین ابزارهای ایمنی در هوش مصنوعی همچنان می‌توانند نسبت به حملات خلاقانه و غیرمنتظره آسیب‌پذیر باشند و نیاز به بهبود مستمر در این حوزه بیش از هر زمان دیگری احساس می‌شود.

EXPRESSJS - مجله تکنولوژی نرم افزار و سخت افزار

توسطexpressjs.ir

شعر؛ ابزاری قدرتمند برای دور زدن محدودیت‌ها

کدام مدل‌ها آسیب‌پذیرتر بودند؟

جزئیات فنی منتشر نشده است

توسط expressjs.ir

پست های مرتبط

افزایش ۱۹۸ درصدی صادرات محصولات تولیدی این منطقه در هشت‌ماهه ۱۴۰۴

رنگ مشکی درگاه USB به چه معناست؟

موردانتظارترین بازی‌های دسامبر ۲۰۲۵ که نباید از دست بدهید

You missed

افزایش ۱۹۸ درصدی صادرات محصولات تولیدی این منطقه در هشت‌ماهه ۱۴۰۴

رنگ مشکی درگاه USB به چه معناست؟

موردانتظارترین بازی‌های دسامبر ۲۰۲۵ که نباید از دست بدهید

اجرای مالیات بر سوداگری زمینه ساز شفافیت عدالت مالیاتی در کشور می‌شود

EXPRESSJS - مجله تکنولوژی نرم افزار و سخت افزار