جمینای می‌تواند خودش را هک کند

پژوهشگران به روشی جدید دست یافته‌اند که نشان می‌دهد هوش مصنوعی جمینای می‌تواند با استفاده از تکنیکی به نام Fun-Tuning خودش را هک کند.

به گزارش تکراتو و به نقل از androidheadlines، هوش مصنوعی ابزاری مفید است، اما در عین حال می‌تواند به سلاحی قدرتمند تبدیل شود.

از زمانی که قابلیت‌های هوش مصنوعی مولد کشف شد، هکرها از آن برای مقاصد مخرب خود استفاده کرده‌اند. اکنون، بر اساس یک گزارش جدید، به نظر می‌رسد که Gemini می‌تواند از طریق روشی به نام Fun-Tuning خودش را هک کند.

یکی از روش‌های خلاقانه‌ای که هکرها برای فریب مدل‌های زبانی بزرگ استفاده می‌کنند، تکنیکی به نام تزریق درخواست است. در این روش، هکرها متنی را درون یک درخواست مخفی می‌کنند تا مدل را وادار به انجام کارهایی کند که نباید انجام دهد.

برخی مدل‌ها نمی‌توانند بین درخواست‌های کاربران و درخواست‌های توسعه‌دهندگان تفاوت قائل شوند، بنابراین این روش به هکرها اجازه می‌دهد تا به‌طور مخفیانه اطلاعاتی را در درخواست جای دهند و مدل را فریب دهند.

چگونه جمینای می‌تواند خودش را هک کند؟

نگران نباشید، این ماجرا مربوط به یک حمله گسترده نیست. بلکه تیمی از پژوهشگران در دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین این روش را کشف کرده‌اند. آنها آزمایش‌هایی روی چندین مدل مختلف از جمینای انجام داده و نتایج متفاوتی به دست آورده‌اند. سپس، از تکنیکی به نام Fun-Tuning استفاده کردند.

این روش، نسخه تغییریافته‌ای از فرآیند Fine-Tuning است که می‌تواند مدل را راحت‌تر فریب دهد. Fun-Tuning شامل افزودن عباراتی مانند wandel ! ! ! ! یا formatted ! ASAP ! به درخواست‌ها است. همین تغییر ساده باعث شد که احتمال موفقیت درخواست‌های مخرب به میزان قابل توجهی افزایش یابد.

در مدل Gemini 1.5، استفاده از Fun-Tuning باعث شد که یک درخواست مخرب با احتمال ۶۵ درصد موفق شود. در حالی که در مدل قدیمی‌تر Gemini 1.0 Pro، این احتمال به ۸۰ درصد رسید که نگران‌کننده‌تر است.

یکی از ابزارهایی که Gemini برای ارزیابی پاسخ‌های خود استفاده می‌کند، سیستمی است که میزان نزدیکی پاسخ مدل به نتیجه مطلوب را به‌صورت یک امتیاز نمایش می‌دهد.

کاربران می‌توانند از این امتیاز برای بهینه‌سازی درخواست‌های خود استفاده کنند. اما نکته جالب اینجاست که همین ابزار می‌تواند برای هک کردن خود مدل مورد استفاده قرار گیرد.

در حال حاضر مشخص نیست که گوگل چه واکنشی به این موضوع نشان خواهد داد، اما به نظر می‌رسد که باید اقدامی در این زمینه انجام دهد. همچنین مشخص نیست که این روش روی مدل‌های جدیدتر مانند Gemini 2.0 یا Gemini 2.5 Pro نیز مؤثر خواهد بود یا خیر، اما بررسی این مسئله قطعاً ضروری است.

ارسال برای دوستان در: واتساپ | تلگرام | توییتر

جدیدترین اخبار تکراتو

جمینای می‌تواند خودش را هک کند

چگونه جمینای می‌تواند خودش را هک کند؟

مقالات آموزشی تکراتو