;
coinex

هوش مصنوعی گوگل بهتر از انسان‌ها می‌تواند لب خوانی کند

برنامه لب ‌خوانی هوش مصنوعی گوگل

هوش مصنوعی گوگل پس از تماشای هزاران برنامه تلویزیونی اکنون بهتر از انسان‌ها می‌تواند لب خوانی کند. محققین شرکت گوگل در بخش “DeepMind” و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیق‌ ترین برنامه لب ‌خوانی شده‌اند.

دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه  BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت 46.8 درصد لب‌خوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با نرخ دقت هوش مصنوعی در بخش تبدیل صداها به نوشتار، اما در مقایسه با یک لب‌خوان حرفه‌ای (انسان) که تنها 12.4 درصد دقت در لب ‌خوانی داشت، این تکنولوژی فوق العاده عمل می‌کند.

این تحقیق در راستای  تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیک‌ های مشابه، موفق به ساخت برنامه‌ لب خوانی با نام “LipNet” شدند که در مقایسه با دقت انسانی که 52.3 درصد بود، برنامه موفق به لب ‌خوانی با دقت 93.4 درصد شد.

با این وجود “LipNet” بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار می‌کردند، تست و اجرا شده بود. در حالی که نرم‌افزار “DeepMind”  که با عنوان “تماشا، شنیدن، کلمات، نوشتن” شناخته شده است بر روی ویدیوهای خیلی پیچیده ‌تر اجرا شد که در آن مکالمات افراد در برنامه ‌های سیاسی شبکه  BBC، توسط این برنامه به متن تبدیل شد.

بیش از 5000 ساعت از برنامه‌های تلویزیونی از جمله “Newsnight ،  Question Time و World Today” برای آموزش این برنامه انتخاب شدند تا مراحل “تماشا، شنیدن، ساماندهی کلمات  و نوشتن” را به بهترین نحو ممکن توسط برنامه اجرا شود. برنامه‌های تلویزیونی شامل 118000 جمله مختلف و 17500 کلمه منحصر به فرد بود، در حالی که تست “LipNet” تنها 51 کلمه را در بر می‌گرفت.

محققان “DeepMind” اظهار می‌کنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلم‌های صامت یا استفاده در دستیارهای دیجیتالی از جمله “Siri” یا “Alexa” (برای استفاده در مکان‌های عمومی) می‌تواند کاربردی باشد.

اما زمانی که افراد می‌فهمند که این تکنولوژی می‌تواند مکالماتشان را لب‌ خوانی کند، اولین فکری که به ذهنشان می‌رسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی در تبدیل  لب خوانی به نوشتار بین ویدیوهای با کیفیت HD و دوربین‌های نظارتی با نرخ فریم پایین، وجود دارد. اما نمی‌توان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.

.

منبع : theverge

ارسال برای دوستان در: واتساپ | تلگرام |






ارسال نظر