طبق مقاله ArtPrompt چت بات ها با ASCII Art سوالات ممنوعه را هم جواب می دهند!
محققان مقیم واشنگتن و شیکاگو، با استفاده از ASCII art، چت باتهای هوش مصنوعی را فریب دادند – Art Prompt از تدابیر ایمنی عبور میکند تا پرسوجوهای خبیث را باز کند.
طبق مقاله ای با عنوان ArtPrompt: حملات jailbreak مبتنی بر Ascii art علیه LLMهای هماهنگ، چت باتهایی مانند GPT-3.5، GPT-4، Gemini، Claude و llama2 میتوانند تحت تأثیر ArtPrompt پرسوجوهایی را که باید رد کنند، پاسخ دهند.
ArtPrompt از دو مرحله تشکیل شده است، ماسک کردن کلمات و تولید پرسوجوهای پنهان.
در مرحله ماسک کردن کلمات، با توجه به رفتار مورد نظری که حملهکننده قصد دارد ایجاد کند، حملهکننده ابتدا کلمات حساس موجود در پرسوجو را ماسک میکند که احتمالاً با هماهنگی ایمنی LLMها تداخل دارند، که منجر به رد پرسوجو میشود.
در مرحله تولید پرسوجوهای پنهان، حملهکننده از یک مولد ASCII art برای جایگزینی کلمات حساس به صورت نمایش کد ASCII استفاده میکند.
در نهایت، ASCII art تولید شده به جای پرسوجو اصلی جایگزین شده و به LLM هدف ارسال میشود تا پاسخ تولید کند.
به همین دلیل ArtPrompt یک توسعه بسیار جالب است. برای درک بهتر از ArtPrompt و نحوه کار آن، بهترین راه احتمالاً بررسی دو مثال ارائه شده توسط تیم تحقیقی پشت این ابزار است.
این ابزار کلمه حساس را با نمایش ASCII آن کلمه جایگزین میکند تا پرسوجوی جدیدی شکل گیرد. LLM پرسوجوی ArtPrompt را تشخیص میدهد اما هیچ مشکلی در پاسخ دادن نمیبیند، زیرا پرسوجو هیچ مشکل اخلاقی یا حساسی ندارد.
یک مثال دیگر ارائه شده در مقاله تحقیقی به ما نشان میدهد چگونه میتوانیم با موفقیت از یک LLM در مورد روش های تقلب و کسب پول پرسوجو کنیم.
فریب دادن یک چت بات از این طریق بسیار اساسی به نظر می رسد، اما توسعه دهندگان ArtPrompt ادعا می کنند که چگونه ابزار آنها LLM های امروزی را “موثر و کارآمد” فریب می دهد.
علاوه بر این، آنها ادعا می کنند که “به طور متوسط ASCII art از همه حملات [دیگر] عملکرد بهتری دارند” و در حال حاضر یک حمله عملی و قابل دوام برای مدل های زبان چندوجهی باقی مانده است.
آخرین باری که ما در مورد فرار از زندان AI Chatbot گزارش دادیم ، برخی از محققان سرمایه گذار NTU در حال کار بر روی Masterkey بودند ، یک روش خودکار برای استفاده از قدرت یک LLM به فرار از زندان دیگری.