آریا جوان

آخرين مطالب

دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند دانش

دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند
  بزرگنمايي:

آریا جوان - زومیت / محققان با سو‌ءاستفاده از قدرت چت‌بات‌ها برای یادگیری و انطباق، آن‌ها را به جیل‌بریک یکدیگر وادار کردند.
محققان دانشگاه فناوری نانیانگ (NTU) در سنگاپور روشی را برای «جیل‌بریک‌کردن» چت‌بات‌های معروف هوش مصنوعی مانند گوگل بارد و ChatGPT و ‌کوپایلت ایجاد کرده‌اند. جیل‌بریک‌شدن به این چت‌بات‌ها اجازه می‌دهد تا فارغ از محدودیت‌های اخلاقی اعمال‌شده‌ی سازندگان، به پرسش‌های مخرب پاسخ دهند.
به‌سرپرستی پروفسور لیو یانگ، دو تن از دانشجویان دکتری NTU روشی دومرحله‌ای به نام Masterkey برای مهندسی معکوس و دورزدن سیستم‌های دفاعی چت‌بات‌ها ابداع کردند.
ابتدا مهاجم مکانیزم‌های دفاعی چت‌بات هدف را مهندسی معکوس می‌کند. سپس، یک مدل زبانی بزرگ (LLM) دیگر را با داده‌های به‌دست‌آمده آموزش می‌دهد تا از هر ضعفی در چت‌بات رقیب سوءاستفاده و بای‌پس‌هایی را برای آن ایجاد کند. در‌نهایت، Masterkey ایجاد می‌شود که می‌تواند سیستم‌های حفاظتی چت‌بات را حتی پس از اعمال وصله‌های امنیتی به‌دست توسعه‌دهندگان دور بزند.

آریا جوان

محققان NTU
بازار
به‌گفته‌ی پروفسور یانگ، توانایی چت‌بات برای یادگیری و سازگاری مداوم، آن را به بردار حمله علیه رقبا و خودش تبدیل می‌کند. به‌دلیل همین توانایی‌ها، حتی هوش مصنوعی‌ای که برای جلوگیری از ایجاد محتوای خشونت‌آمیز و مضر به‌واسطه‌ی پادمان‌ها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز می‌توان با استفاده از هوش مصنوعی آموزش‌دیده‌ی دیگر دور زد.
به‌گزارش NTU، تنها کاری که چت‌بات حمله‌کننده باید انجام دهد، خودداری از به‌کار‌بردن کلمات کلیدی فهرست سیاه چت‌بات هدف یا دور‌زدن آن‌ها است. پس از این کار، چت‌بات شکست‌خورده‌ی هدف را می‌توان برای ایجاد محتوای خشونت‌آمیز، غیراخلاقی یا مجرمانه به‌کار گرفت.
پیش‌از‌این هم کاربران بارها با استفاده از دستورهای مختلف توانسته بودند تا اندازه‌های مختلفی چت‌بات‌های یادشده را به ایجاد محتوای مغایر اصول تعیین شده مجبور کنند؛ اما روش Masterkey محققان NTU در‌مقایسه‌با دستورهای معمولی، تا سه برابر مؤثرتر است. به‌علاوه، این روش جدید می‌تواند به‌ گونه‌ای تکامل پیدا کند که هرگونه اصلاح‌ امنیتی سازندگان را بی‌اثر کند.
محققان دو روش نمونه را که برای وادار‌کردن چت‌بات‌‌ها به آغاز حمله فاش کردند. روش اول شامل بردن چت‌بات درون شخصیتی بود که برای دور‌زدن کلمات ممنوعه، هنگام نوشتن دستورهای خود بعد از هر کلمه یک فاصله می‌گذاشت. دومین روش نیز با وارد‌کردن چت‌بات به شخصیتی بود که هیچ‌گونه محدودیت‌های اخلاقی نداشت.
پس از موفقیت در جیل‌بریک‌کردن چت‌بات‌های معروف، محققان NTU با ارائه‌ی داده‌های لازم به شرکت‌های مادر این مدل‌های زبانی، آن‌ها را از نتایج مطلع کردند. همچنین، تحقیق برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیع‌شده (NDSS) که در فوریه‌ی 2024 (اسفند 1402) در سن‌دیگو برگزار می‌شود، تأیید شده است.

لینک کوتاه:
https://www.aryajavan.ir/Fa/News/1237551/

نظرات شما

ارسال دیدگاه

Protected by FormShield
مخاطبان عزیز به اطلاع می رساند: از این پس با های لایت کردن هر واژه ای در متن خبر می توانید از امکان جستجوی آن عبارت یا واژه در ویکی پدیا و نیز آرشیو این پایگاه بهره مند شوید. این امکان برای اولین بار در پایگاه های خبری - تحلیلی گروه رسانه ای آریا برای مخاطبان عزیز ارائه می شود. امیدواریم این تحول نو در جهت دانش افزایی خوانندگان مفید باشد.

ساير مطالب

گوشی پرچمدار خوش‌قیمت؛ مشخصات آیکو نئو 9S پرو پلاس لو رفت

اندروید 15 تجربه فیلمبرداری گوشی‌ها را بهتر می‌کند؟

گوشی گیمینگ اقتصادی 2024 ریلمی در راه است

مدیرعامل سابق گوگل زمانی به فکر خرید تیک تاک بوده است

وایکینگ های دیپلمات: متفاوت ترین لباس برای سیاست

خواننده جنجالی رپ در کنار مادرش

امیرکاظمی: ساده ترین مسائل رو هم با هوتن مشورت میکنم

علت تحریف تاریخ ایران در سریال «حشاشین» توسط مصری ها

نقش اول تعویضی که رئال را نجات داد

حرکت متفاوت از منجنیق پرسپولیس

ایده جدید عنایتی برای بقای پیکان

با این بند دورتموند در هر صورت قهرمان سی‌ال است

مهاجم سابق پرسپولیس: مراقب باشید جام از دست نرود

مقصد احتمالی مارکو رویس مشخص شد

بازنشر نماهنگ «ریحانه» بمناسبت روز دختر

اطلاعیه وزارت کشور: سه شرط مهم برای شرکت در انتخابات اعلام شد

فارس نوشت: انتشار پیام مهم و معنادار نسرین به نیکا شاکرمی

رئیسی: در ابتدای دولت لغو سند 2030 را امضا کردم

اظهارات منتشر شده‌ از رئیس دولت اصلاحات درباره‌ انتخابات

جزیره‌ی خوشمزه‌ها/ اولین گردهمایی بزرگ سرآشپزهای ایرانی در کیش

ایمپلنت مغزی نورالینک در انسان دچار اختلال شد

دخترت رو خوشحال کن!

تو خواهر سلطانی...

تصاویری از رژه نظامیان روسیه در میدان سرخ

گوناگون/ عادت‌های ساختنی مطالعه برای امتحانات

بازسازی سکانس معروف «خانه بدوش» با شخصیت‌های لگو

کانون چوگان قهرمان جام بنفشه چوگان شد

حق با امباپه بود؛ چرا رئال را انتخاب کردم

اعلام زمان نشست خبری سرمربیان هوادار و پرسپولیس

ناکامی عنوان داران کشتی جهان و المپیک در کسب سهمیه پاریس

تبریز، شهری طلسم شده برای گل‌گهر

اولین واکنش حامدی‌فر به اتفاقات جنجالی

ابراز علاقه جهانبخش برای بازی در بوندس‌لیگا و سری A

اصرار سلیمی به بازی برای استقلال با بخیه

ستاره استقلال از باشگاه طلبکار است

چهارمین قضاوت بنیادی‌فر برای استقلال

بانوان اراکی دوباره از تماشای بازی محروم شدند

ترکیب رنگ های استایل مردانه

انتقاد جان کری از ترامپ: ایران را قوی تر کردی و آمریکا را منزوی

در جلسه تشکل‌های نشر با معاون اول رئیس جمهور چه گذشت؟

اطلاعیه وزارت کشور: سه شرط مهم برای شرکت انتخابات اعلام شد

انتشار One UI 6.1 برای گلکسی S22 از سر گرفته شد

آیا واتساپ در کشور چین رفع فیلتر شده است؟

نتایج بنچمارک M4 ادعاهای اپل در مورد آیپد پرو را تأیید می‌کند

برگی از تاریخ/ ماجرای متخلف‌ترین راننده تهران قدیم

نصب کتیبه‌ ویژه ولادت حضرت معصومه(س) در حرم امام رضا(ع)

یک طرف قم که خاک مرقد توست، یک طرف مشهدالرضا...

آتش سوزی عظیم یک کارخانه در استافوردشر انگلیس

تخلف سریال افعی تهران هنوز ثابت نشده است!

همکاری‌های پیمان معادی با دخترش باران