هوش مصنوعی Voicebox متا شما را قادر به صحبت با 6 زبان زنده دنیا می‌کند!

هوش مصنوعی Voicebox متا معرفی شد. مدل هوش مصنوعی جدید متا شما را قادر به صحبت با 6 زبان زنده دنیا می‌کند.

هوش مصنوعی Voicebox متا رونمایی شد. متا به‌عنوان شرکت مادر فیس‌بوک، واتس‌اپ و اینستاگرام از هوش مصنوعی جدید خود تحت‌عنوان Voicebox رونمایی کرد که قادر است متن را به صدا تبدیل کرده و شما را قادر می‌کند به 6 زبان زنده دنیا صحبت کنید. به گفنته متا، این مدل هوش مصنوعی روی بیش‌از 50هزار صدای بدون‌فیلتر آموزش دیده و از کتاب‌های 6 زبان زنده دنیا استفاده کرده است.

بیشتر بخوانید: تشخیص مشکلات پوستی با هوش مصنوعی گوگل لنز ؛ وقتی AI پزشک می‌شود!

هوش مصنوعی Voicebox متا با قابلیت‌های جدید معرفی خواهد شد

متا از ابزار هوش مصنوعی مولد جدیدی به‌ نام Voicebox رونمایی کرده است که می‌تواند کارهای مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی‌های مهم این مدل دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. این ابزار می‌تواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام می‌دهند.

هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن به‌عنوان «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد می‌کند. این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

ازجمله قابلیت‌های مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونه‌ای 2 ثانیه‌ای از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند. دامنه وسیع داده‌های ورودی به این سیستم کمک می‌کند تا صداهایی بسازد که از نظر مکالمه‌ای طبیعی‌ترند. متا می‌گوید:

نتایج ما نشان می‌دهد مدل‌های تشخیص گفتاری که روی صداهای ساخته‌شده با Voicebox آموزش داده می‌شوند، تقریباً به‌خوبی مدل‌هایی عمل می‌کنند که با صداهای واقعی تعلیم داده شده باشند. به‌علاوه، صداهایی که توسط کامپیوتر تولید شدند، فقط با 1 درصد خطای تنزل روبه‌رو بودند، درحالی‌که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.

مدل هوش مصنوعی Voicebox می‌تواند صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا می‌گویند: «برای مثال کاربر می‌تواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.»

مدل Voicebox به‌لطف روش جدید تعلیم متا موسوم به «هماهنگ‌ساز جریان» (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (1.9 درصد در مقایسه با 5.9 درصد) و سرعت آن هم تا 20 برابر سریع‌تر است.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آن‌ها درحال‌حاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتی‌شان دچار مشکل شده است، NPCهای درون بازی‌ها و دستیارهای صوتی استفاده کنند.

بیشتر بخوانید:

نظر شما درباره‌ قابلیت‌های هوش مصنوعی Voicebox متا چیست؟ دیدگاه خود را در بخش کامنت ها با تکراتو در میان بگذارید و اخبار تکنولوژی را با ما دنبال کنید.

ارسال برای دوستان در: واتساپ | تلگرام | توییتر

جدیدترین اخبار تکراتو

هوش مصنوعی Voicebox متا شما را قادر به صحبت با 6 زبان زنده دنیا می‌کند!

هوش مصنوعی Voicebox متا با قابلیت‌های جدید معرفی خواهد شد

مقالات آموزشی تکراتو