مدلهای پیشرفته هوش مصنوعی گوگل، Gemini 1.5 Pro و 1.5 Flash، بهعنوان ابزارهایی با توانایی پردازش و تحلیل حجم بالای دادهها معرفی شدهاند. گوگل ادعا کرده که این مدلها میتوانند وظایف پیچیدهای مانند خلاصهسازی اسناد حجیم و جستوجو در ویدیوها را انجام دهند. اما تحقیقات جدید نشان میدهند مدلهای جدید Gemini در واقع به اندازهای که گوگل ادعا میکند کارآمد نیستند.تککرانچ گزارش کرد، دو مطالعه مختلف به بررسی عملکرد این مدلها در پردازش دادههای گسترده، مانند کتابهای حجیمی چون «جنگ و صلح» پرداختهاند. نتایج نشان میدهند که مدلهای Gemini در پاسخ به سوالات مربوط به این دادهها، تنها ۴۰ تا ۵۰ درصد از موارد را بهدرستی پاسخ دادهاند.
بهعنوان مثال، در آزمایشی که بر اساس کتابی با ۲۶۰ هزار کلمه انجام شد، مدل 1.5 Pro تنها در ۴۶.۷ درصد موارد پاسخ صحیح داده است، در حالی که مدل Flash تنها ۲۰ درصد موفق به پاسخگویی درست شد.
بیشتر بخوانید:
- موتورولا و گوگل برای اضافه کردن Gemini به گوشیهای تاشوی ریزر 2024 توافق کردند
- گوگل مسیج به هوش مصنوعی Gemini مجهز شد
تواناییهای مدلهای جدید Gemini ؛ محدودیتهای پنجره متنی
اصطلاح «پنجره متنی» به حجم دادههایی اطلاق میشود که مدل قبل از تولید خروجی میتواند بررسی کند. مدلهای جدید Gemini قادر به پردازش تا ۲ میلیون توکن (معادل تقریبی ۱.۴ میلیون کلمه یا دو ساعت ویدیو) هستند. با این حال، در آزمایشها مشخص شد که این مدلها در درک و تحلیل دادههای حجیم چندان موفق نیستند.
در یکی از آزمایشها، محققان از مدلها خواستند تا در مورد کتابهای داستانی انگلیسی به سوالات درست/غلط پاسخ دهند. نتایج نشان داد که مدلها در ارزیابی اطلاعات پنهان و ضمنی که برای خوانندگان انسانی روشن است، اما بهصورت صریح در متن بیان نشده، دچار مشکل هستند.
تواناییهای مدلهای جدید Gemini در بررسی ویدیوها
در مطالعه دیگری، توانایی مدل Flash در تحلیل محتواهای ویدیویی بررسی شد. مدل در پاسخ به سوالات مربوط به تصاویر در یک مجموعه ویدیوئی، عملکرد مطلوبی نداشت. بهعنوان مثال، در آزمایشی که مدل باید اعداد نوشته شده روی تصاویر را تشخیص میداد، دقت آن تنها ۵۰ درصد بود.
واکنشها به ادعاهای گوگل
اگرچه هیچکدام از این مطالعات بهصورت علمی بررسی نشدهاند، اما نشان میدهند که گوگل در مورد قابلیتهای مدلهای Gemini اغراق کرده است. محققان معتقدند که یکی از راهحلهای مقابله با این ادعاهای نادرست، توسعه معیارهای سنجش دقیقتر و تاکید بیشتر بر ارزیابیهای مستقل است.
بهطور کلی، فناوری هوش مصنوعی تولیدی با چالشهایی روبهروست و شرکتها و سرمایهگذاران از محدودیتهای آن ابراز نگرانی کردهاند. این مسئله باعث شده تا نیاز به ارزیابی دقیقتر و واقعبینانهتر از قابلیتهای این مدلها بیشتر احساس شود.
بیشتر بخوانید: