روش‌های دور زدن قوانین هوش مصنوعی نامحدود است!

روش‌های دور زدن قوانین هوش مصنوعی نامحدود است و این یعنی به سادگی می‌توان ابزارهای هوش مصنوعی را مجبور به کنار زدن قوانین کرد!

طبق مطالعات انجام شده، مدل‌های زبانی بزرگی که ChatGPT، Bard و Anthropic’s Claude بر اساس آنها طراحی شده‌ و توسعه داده می‌شوند به طور گسترده توسط شرکت‌های فناوری مورد تعدیل قرار می‌گیرد. ساختار امنیتی این مدل‌ها علاوه‌بر این که وسعت زیادی دارد به گونه‌ای ساخته شده که این اطمینان حاصل شود از آنها در خلق و تولید برنامه‌ها و ابزارهای آسیب‌‌زا مانند آموزش نحوه ساخت بمب یا نوشتن مطالبی با محوریت نفرت‌پراکنی استفاده نمی‌شود. با این وجود گویا این دیوارهای امنیتی خیلی هم مستحکم نیستند!

بیشتر بخوانید: همکاری ناسا و IBM برای ساخت یک هوش مصنوعی متخصص علوم زمین

روش‌های دور زدن قوانین هوش مصنوعی

پیرو گزارشی که روز پنجشنبه توسط محققان دانشگاه کارنگلی ملون در پیتسبرگ و مرکز ایمنی A.I در سان‌فرانسیسکو منتشر شده، راه و روش‌هایی برای دور زدن این ساختار ایمنی یافت شده است. محققان دریافته‌اند که می‌توانند از روش‌های مختلفی که از آنها برای توسعه فناوری متن‌باز بهره برده‌اند برای هدف قرار دادن سیستم‌های هوش مصنوعی جریان اصلی و بسته استفاده کنند.

این مقاله نشان می‌دهد که حملات خشونت‌آمیزی که به‌صورت خودکار انجام می‌پذیرد، عمدتا با اضافه کردن کاراکترها به انتهای سوالات کاربر اتفاق می‌افتد که می‌تواند در جهت غلبه بر قوانین ایمنی و تاثیرگذاری بر چت‌بات‌ها در راستای تولید محتوای مضر، اطلاعات نادرست و نفرت‌پراکنی مورد استفاده قرار گیرد.

این روش‌های دور زنی سیستم امنیتی مدل‌های زبانی، به صورت خودکار طراحی شده است و ممکن است موجب انجام حملات مشابه تقریبا نامحدودی شود.

محققان در انتهای این تحقیق، روش‌های دور زدن سیستم امنیتی مدل‌های زبانی را در اختیار OpenAI، Google و Anthropic قرار دادند.

یکی از سخنگویان گوگل در رابطه با این موضوع به Insider گفت: «در حالی که این یک مشکل در سرتاسر LLM‌ها است، ما حفاظ امنیتی مهمی را در Bard ایجاد کرده‌ایم که در طول زمان این موضوع بهبود خواهد یافت.»

نمایندگان آنتروپیک نیز پیرامون این مساله اظهار کردند که در حال آزمایش راه‌هایی برای تقویت ساختار حفاظتی مدل‌های پایه هستند تا آنها را بی‌ضررتر کنند با وجود این که لایه‌های دفاعی اضافی را نیز بررسی می‌کنیم.

نمایندگان OpenAI اما نسبت به این موضوع فعلا پاسخی ارائه نداده‌اند. زمانی که برخی از کاربران، روش‌های تضعیف دستورالعمل ChatGPT و Bing را پیدا کردند و محتواهای تعدیل نشده را وارد این مدل‌ها کردند اقدامشان سریعا توسط پشتیبانی و شرکت سازنده اصلاح و پیشگیری شد.

در نهایت، گفته شده است که معلوم نیست شرکت‌های سازنده این مدل‌های زبانی بتوانند از تکرار این رفتارها جلوگیری کنند یا نه. این سوالی است که نحوه تعدیل سیستم‌های هوش مصنوعی و همچنین ساختار ایمنی انتشار محتوای مدل‌های زبانی شرکت‌های مطرح حوزه فناوری را به چالش می‌کشد.

بیشتر بخوانید:

نظر شما درباره روش‌های دور زدن قوانین هوش مصنوعی چیست؟ دیدگاه خود را در بخش کامنت‌ها با تکراتو در میان بگذارید و اخبار تکنولوژی را با ما دنبال کنید.

ارسال برای دوستان در: واتساپ | تلگرام | توییتر

جدیدترین اخبار تکراتو

روش‌های دور زدن قوانین هوش مصنوعی نامحدود است!

روش‌های دور زدن قوانین هوش مصنوعی

مقالات آموزشی تکراتو