هوش مصنوعی گوگل پس از تماشای هزاران برنامه تلویزیونی اکنون بهتر از انسانها میتواند لب خوانی کند. محققین شرکت گوگل در بخش “DeepMind” و دانشگاه آکسفورد با استفاده از هوش مصنوعی موفق به ساختن دقیق ترین برنامه لب خوانی شدهاند.
دانشمندان با استفاده از هزاران ساعت برنامه تلویزیونی شبکه BBC، موفق به آموزش یک سری شبکه عصبی شدند که قادر است تصاویر ویدیوئی را با دقت 46.8 درصد لبخوانی کرده و به نوشتار تبدیل کند. شاید در نگاه اول خیلی تاثیر گذار به نظر نیاید، مخصوصا در مقایسه با نرخ دقت هوش مصنوعی در بخش تبدیل صداها به نوشتار، اما در مقایسه با یک لبخوان حرفهای (انسان) که تنها 12.4 درصد دقت در لب خوانی داشت، این تکنولوژی فوق العاده عمل میکند.
این تحقیق در راستای تحقیقات گروهی دیگر در اوایل این ماه در دانشگاه آکسفورد صورت گرفته است. دانشمندان گروه اول با استفاده از تکنیک های مشابه، موفق به ساخت برنامه لب خوانی با نام “LipNet” شدند که در مقایسه با دقت انسانی که 52.3 درصد بود، برنامه موفق به لب خوانی با دقت 93.4 درصد شد.
با این وجود “LipNet” بر روی ویدیوهای از پیش ضبط شده توسط داوطلبان که جملات با قواعد خاصی را تکرار میکردند، تست و اجرا شده بود. در حالی که نرمافزار “DeepMind” که با عنوان “تماشا، شنیدن، کلمات، نوشتن” شناخته شده است بر روی ویدیوهای خیلی پیچیده تر اجرا شد که در آن مکالمات افراد در برنامه های سیاسی شبکه BBC، توسط این برنامه به متن تبدیل شد.
بیش از 5000 ساعت از برنامههای تلویزیونی از جمله “Newsnight ، Question Time و World Today” برای آموزش این برنامه انتخاب شدند تا مراحل “تماشا، شنیدن، ساماندهی کلمات و نوشتن” را به بهترین نحو ممکن توسط برنامه اجرا شود. برنامههای تلویزیونی شامل 118000 جمله مختلف و 17500 کلمه منحصر به فرد بود، در حالی که تست “LipNet” تنها 51 کلمه را در بر میگرفت.
محققان “DeepMind” اظهار میکنند که این برنامه برای مقاصد مختلفی کاربرد دارد، از جمله افراد دارای ضعف شنوایی که در درک مکالمات با مشکل مواجه هستند. همچنین برای به متن درآوردن فیلمهای صامت یا استفاده در دستیارهای دیجیتالی از جمله “Siri” یا “Alexa” (برای استفاده در مکانهای عمومی) میتواند کاربردی باشد.
اما زمانی که افراد میفهمند که این تکنولوژی میتواند مکالماتشان را لب خوانی کند، اولین فکری که به ذهنشان میرسد مسائل نظارتی و امنیتی خواهد بود. دانشمندان گفته اند که هنوز اختلاف زیادی در تبدیل لب خوانی به نوشتار بین ویدیوهای با کیفیت HD و دوربینهای نظارتی با نرخ فریم پایین، وجود دارد. اما نمیتوان از بین بردن این خلاء توسط هوش مصنوعی را نادیده گرفت.
.
منبع : theverge