متا از مدل هوش مصنوعی Spirit LM معرفی کرد که میتواند در مکالمات صوتی، به شکل طبیعیتر با احساسات و لحن دقیقتری پاسخ مخاطب را بدهد.
بهگزارش meta، هوش مصنوعی نوظهور متا اولین نمونه چندوجهی این شرکت محسوب شده که قادر به پردازش همزمان دادههای متنی و صوتی و ترکیب آنها با یکدیگر است و میتواند با مدلهایی همچون GPT-4 رقابت کند.
هوش مصنوعی Spirit LM متن و گفتار را به صورت یکپارچه پردازش میکند
بیشتر مدلهای زبانی فعلی، حین مکالمات صوتی، فرآیند تبدیل متن به گفتار (TTS) و تشخیص خودکار گفتار (ASR) بکار میگیرند؛ در این صورت بیان طبیعی گفتار از بین رفته و حس درستی منتقل نمیشود. اما هوش مصنوعی Spirit LM متا به شکلی طراحی شده که متن و گفتار را به صورت یکپارچه پردازش میکند؛ به این ترتیب مکالمه با آن حس طبیعیتری دارد.
هوش مصنوعی جدید متا در دو نسخه Spirit LM Base (از توکنهای آوایی برای پردازش کردن و تولید گفتار استفاده میکند) و Spirit LM Expressive (به توکنهای بیشتری مجهز است که میتواند زیر و بم و لحن را تنظیم کند) عرضه شده است. این نسخه میتواند احساسات ظریفی همچون هیجان یا غم را به خوبی در گفتاری تولید شده انعکاس دهد.
هر دو نسخه هوش مصنوعی Spirit LM با دادههای متشکل از متن و گفتار ترکیب شده آموزش دیدهاند و بهخوبی از عهده وظایف چندوجهی مانند تبدیل متن به گفتار و بالعکس برمیآیند.
متا در اقدامی جالب و برای اثبات حسننیت خود در راستاری تعهد به هوش مصنوعی متن باز، کدهای منبع این مدل را در گیتهاب منتشر کرده است. به عقیده مارک زاکربرگ، هوش مصنوعی متن باز در افزایش بهرهوری، خلاقیت و ارتقای کیفیت زندگی نقش مهمی دارد و باور دارد که این تکنولوژی در تسریع تحقیقات علمی و پزشکی کمک خواهد کرد.
بیشتر بخوانید: