سرویس متن به گفتار ابری گوگل در دسترس توسعه‌دهندگان

از این پس توسعه‌دهندگان قادر خواهند بود تا از همان سرویس متن به گفتار در اپلیکیشن های خود استفاده کنند. این ویژگی در سرویس‌های گوگل به‌کار رفته است.

به گزارش تکراتو، گوگل در وبلاگ خود اعلام کرده است که سرویس متن به گفتار ابری خود را در دسترس توسعه‌دهندگان قرار خواهد داد. این سرویس به توسعه‌دهندگان اجازه می‌دهد تا با استفاده از الگوی ویونت (Wavenet) و زیرساخت شبکه‌ی عصبی غول جستجو، صدای طبیعی متن به گفتار را در اپلیکیشن‌های خود استفاده کنند.


بیشتر بخوانید: سرویس کوتاه کننده لینک گوگل جایگزین می شود!


بررسی سرویس متن به گفتار ابری گوگل

فناوری ویونت همان فناوری به‌کار رفته در تبدیل متن به گفتار برخی از سرویس‌های محبوب گوگل از جمله گوگل اسیستنت، مپس و جستجو است. گوگل در وبلاگ خود اعلام کرد که این سرویس متن به گفتار می‌تواند در سامانه‌های پاسخ صوتی مراکز تماس به‌کار رود، امکان پاسخگویی را در اختیار دستگاه‌های اینترنت اشیا قرار دهد و به‌صورت خودکار محتوای متنی مقاله‌ها و کتاب‌ها را نیز به قالب‌های صوتی نظیر پادکست‌ها یا کتاب‌های صوتی تبدیل نماید.


بیشتر بخوانید:خلق تصاویری با کیفیت اچ دی با دوربین گوگل کلیپس !


امکان انتخاب صدا از بین موارد موجود

توسعه‌دهندگان قادرند تا از بین ۳۲ صدای مختلف و ۱۲ زبان از جمله انگلیسی، پرتغالی، ژاپنی، فرانسوی، اسپانیایی گزینه مورد نظر را انتخاب کنند. گوگل همچنین اعلام کرده است که در آینده‌ی نزدیک صداهای بیشتری را به این سرویس اضافه خواهد کرد. علاوه‌بر این، افراد می‌توانند حجم صدا، نرخ گفتار و کیفیت صداها را نیز تغییر دهند. لازم به ذکر است که امکان استفاده از برچسب‌های نشانه‌گذاری متن به گفتار (SSML) به‌منظور افزودن مکث، دستورالعمل‌های تلفظ و تاریخ به گفتار وجود دارد.

هزینه مربوط به استفاده از سرویس متن به گفتار

توسعه‌دهندگانی که قصد دارند از سرویس متن به گفتار ابری استفاده کنند، می‌توانند از بین صداهای بیسیک و ویونت انتخاب کنند و براساس تعداد کاراکترهایی که ماهانه برای ساخت صدا به این سرویس ارسال می‌کنند، هزینه پرداخت کنند. صداهای بیسیک به نحو قابل توجهی ارزان‌تر هستند اما صداهای ویونت صوت طبیعی‌تری ارائه خواهند کرد.

پیشرفت های مربوط به سرویس متن به گفتار

این فناوری در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از یک شبکه‌ی عصبی کانولوشن که با بهره‌گیری از نمونه‌های گفتاری مختلفی آموزش داده شده بود، استفاده می‌کرد. دو سال پس از عرضه‌ی این فناوری، اکنون نسخه‌های به‌روزشده از الگوی ویونت امکان ساخت بسیار سریع‌تر صدا را فراهم می‌کنند. ویونت در سال ۲۰۱۶ در یک ثانیه تنها قادر به تولید ۰.۰۲ ثانیه صدا بود؛ در حالی که الگوی به‌روزشده می‌تواند در یک ثانیه، ۲۰ ثانیه صدا تولید کند. علاوه بر این، الگوی به‌روزشده در مقایسه با الگوی اولیه، وضوح و دقت بهتری ارائه می‌دهد که نتیجه‌ی آن تولید صدای باکیفیت‌تر و شبیه‌تر به صدای انسان است.

 

بیشتر بخوانید:

.

منبع: androidheadlines



ارسال نظر