پژوهشگران به روشی جدید دست یافتهاند که نشان میدهد هوش مصنوعی جمینای میتواند با استفاده از تکنیکی به نام Fun-Tuning خودش را هک کند.
به گزارش تکراتو و به نقل از androidheadlines، هوش مصنوعی ابزاری مفید است، اما در عین حال میتواند به سلاحی قدرتمند تبدیل شود.
از زمانی که قابلیتهای هوش مصنوعی مولد کشف شد، هکرها از آن برای مقاصد مخرب خود استفاده کردهاند. اکنون، بر اساس یک گزارش جدید، به نظر میرسد که Gemini میتواند از طریق روشی به نام Fun-Tuning خودش را هک کند.
یکی از روشهای خلاقانهای که هکرها برای فریب مدلهای زبانی بزرگ استفاده میکنند، تکنیکی به نام تزریق درخواست است. در این روش، هکرها متنی را درون یک درخواست مخفی میکنند تا مدل را وادار به انجام کارهایی کند که نباید انجام دهد.
برخی مدلها نمیتوانند بین درخواستهای کاربران و درخواستهای توسعهدهندگان تفاوت قائل شوند، بنابراین این روش به هکرها اجازه میدهد تا بهطور مخفیانه اطلاعاتی را در درخواست جای دهند و مدل را فریب دهند.
چگونه جمینای میتواند خودش را هک کند؟
نگران نباشید، این ماجرا مربوط به یک حمله گسترده نیست. بلکه تیمی از پژوهشگران در دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین این روش را کشف کردهاند. آنها آزمایشهایی روی چندین مدل مختلف از جمینای انجام داده و نتایج متفاوتی به دست آوردهاند. سپس، از تکنیکی به نام Fun-Tuning استفاده کردند.
این روش، نسخه تغییریافتهای از فرآیند Fine-Tuning است که میتواند مدل را راحتتر فریب دهد. Fun-Tuning شامل افزودن عباراتی مانند wandel ! ! ! ! یا formatted ! ASAP ! به درخواستها است. همین تغییر ساده باعث شد که احتمال موفقیت درخواستهای مخرب به میزان قابل توجهی افزایش یابد.
در مدل Gemini 1.5، استفاده از Fun-Tuning باعث شد که یک درخواست مخرب با احتمال ۶۵ درصد موفق شود. در حالی که در مدل قدیمیتر Gemini 1.0 Pro، این احتمال به ۸۰ درصد رسید که نگرانکنندهتر است.
یکی از ابزارهایی که Gemini برای ارزیابی پاسخهای خود استفاده میکند، سیستمی است که میزان نزدیکی پاسخ مدل به نتیجه مطلوب را بهصورت یک امتیاز نمایش میدهد.
کاربران میتوانند از این امتیاز برای بهینهسازی درخواستهای خود استفاده کنند. اما نکته جالب اینجاست که همین ابزار میتواند برای هک کردن خود مدل مورد استفاده قرار گیرد.
در حال حاضر مشخص نیست که گوگل چه واکنشی به این موضوع نشان خواهد داد، اما به نظر میرسد که باید اقدامی در این زمینه انجام دهد. همچنین مشخص نیست که این روش روی مدلهای جدیدتر مانند Gemini 2.0 یا Gemini 2.5 Pro نیز مؤثر خواهد بود یا خیر، اما بررسی این مسئله قطعاً ضروری است.