هوش مصنوعی Spirit LM معرفی شد؛ مدل منبع باز متا که متن و گفتار را ترکیب می‌کند

متا از مدل هوش مصنوعی Spirit LM معرفی کرد که می‌تواند در مکالمات صوتی، به شکل طبیعی‌تر با احساسات و لحن دقیق‌تری پاسخ مخاطب را بدهد.

به‌گزارش meta، هوش مصنوعی نوظهور متا اولین نمونه چندوجهی این شرکت محسوب شده که قادر به پردازش همزمان داده‌های متنی و صوتی و ترکیب آنها با یکدیگر است و می‌تواند با مدل‌هایی همچون GPT-4 رقابت کند.

هوش مصنوعی Spirit LM متن و گفتار را به صورت یکپارچه پردازش می‌کند

بیشتر مدل‌های زبانی‌ فعلی، حین مکالمات صوتی، فرآیند تبدیل متن به گفتار (TTS) و تشخیص خودکار گفتار (ASR) بکار می‌گیرند؛ در این صورت بیان طبیعی گفتار از بین رفته و حس درستی منتقل نمی‌شود. اما هوش مصنوعی Spirit LM متا به شکلی طراحی شده که متن و گفتار را به صورت یکپارچه پردازش می‌کند؛ به این ترتیب مکالمه با آن حس طبیعی‌تری دارد.

هوش مصنوعی جدید متا در دو نسخه Spirit LM Base (از توکن‌های آوایی برای پردازش کردن و تولید گفتار استفاده می‌کند) و Spirit LM Expressive (به توکن‌های بیشتری مجهز است که می‌تواند زیر و بم و لحن را تنظیم کند) عرضه شده است. این نسخه می‌تواند احساسات ظریفی همچون هیجان یا غم را به خوبی در گفتاری تولید شده انعکاس دهد.

هر دو نسخه هوش مصنوعی Spirit LM با داده‌های متشکل از متن و گفتار ترکیب شده آموزش دیده‌اند و به‌خوبی از عهده وظایف چندوجهی مانند تبدیل متن به گفتار و بالعکس برمی‌آیند.

متا در اقدامی جالب و برای اثبات حسن‌نیت خود در راستاری تعهد به هوش مصنوعی متن باز، کد‌های منبع این مدل را در گیت‌هاب منتشر کرده است. به عقیده مارک زاکربرگ، هوش مصنوعی متن باز در افزایش بهره‌وری، خلاقیت و ارتقای کیفیت زندگی نقش مهمی دارد و باور دارد که این تکنولوژی در تسریع تحقیقات علمی و پزشکی کمک خواهد کرد.

بیشتر بخوانید:

ارسال برای دوستان در: واتساپ | تلگرام | توییتر

جدیدترین اخبار تکراتو

هوش مصنوعی Spirit LM معرفی شد؛ مدل منبع باز متا که متن و گفتار را ترکیب می‌کند

هوش مصنوعی Spirit LM متن و گفتار را به صورت یکپارچه پردازش می‌کند

مقالات آموزشی تکراتو