گوگل و هاروارد برای ایجاد کتابخانهای با 1 میلیون کتاب برای آموزش هوش مصنوعی با یکدیگر همکاری میکنند. در این مجموعه، کتابهایی از نویسندگان مشهوری همچون چارلز دیکنز و ویلیام شکسپیر که به دلیل تاریخ انتشارشان دیگر تحت قوانین کپی رایت قرار نمیگیرند و به اصطلاح آثار عمومی (Public Domain) تلقی میشوند نیز استفاده شده است.
بهگزارش wired، این پروژه با هدف فراهم آوردن مجموعهای از دادهها برای آموزش مدلهای هوش مصنوعی ایجاد خواهد شد که به طور خاص بر توسعه مدلهای زبانی طبیعی هوش مصنوعی تمرکز دارد. این دادهها به محققان، استارتاپها و شرکتهای فعال حوزه هوش مصنوعی کمک میکند تا بتوانند مدلهای خود را بهبود ببخشند و آنها را آموزش دهند.
مایکروسافت و OpenAI در پروژه دادهسازی گوگل و هاروارد برای آموزش هوش مصنوعی مشارکت میکنند
این مجموعه داده که تحت عنوان «ابتکار دادههای سازمان» یا IDI شناخته میشود، برگرفته از پروژه Google Books است. پروژهای که از سالها پیش در حال اسکن و دیجیتالسازی کتابهای مختلف بوده است. به گفته منابع، این مجموعه داده در حال حاضر آماده انتشار نیست و البته زمان دقیق عرضه آن هم هنوز مشخص نیست. با این حال، گفته میشود که گوگل، به عنوان یکی از شرکای اصلی، در این پروژه مشارکت دارد و دادههای این پروژه بخشی از دستاوردهای Google Books خواهد بود.
علاوه بر گوگل و هاروارد، شرکتهای بزرگ فناوری نظیر مایکروسافت و OpenAI نیز به عنوان سرمایهگذاران اصلی در این پروژه حضور دارند. گرگ لپرت، مدیر اجرایی پروژه IDI، هدف از این طرح را هموار کردن رقابت در زمینه آموزش مدلهای زبان طبیعی عنوان کرده است. به گفته وی، این مجموعه داده به دسترس قرار دادن اطلاعاتی با کیفیت بالا برای همه پژوهشگران و توسعهدهندگان، به ویژه در حوزه مدلهای زبانی بزرگ (LLM)، میتواند موجب ارتقای سطح رقابت و همچنین کاهش وابستگی به منابع محدود تجاری در این زمینه شود.
از آنجایی که این دادهها از کتابهای قدیمی و با دسترسی عمومی تشکیل شدهاند، میتوان گفت در آیندهای نزدیک، این پروژه به عنوان یک مرجع معتبر برای استفاده در تحقیقات، توسعه و آموزش هوش مصنوعی در نظر گرفته خواهد شد. این امر میتواند کمک زیادی به افزایش توانایی و کارایی مدلهای زبان طبیعی موجود کند.
بیشتر بخوانید: