هوش مصنوعی transframer گوگل با یک عکس، ویدیو می‌سازد!

فناوری جدید هوش مصنوعی transframer گوگل می‌تواند ویدیوهای کوتاهی را بر اساس یک تصویر ایجاد کند که زمان آن‌ها به 30 ثانیه می‌رسد.

محققان همچنان به یافتن راه‌های جدیدی برای استفاده از قابلیت‌های هوش مصنوعی و یادگیری ماشینی با تکامل فناوری‌ها ادامه می‌دهند. در اوایل این هفته، دانشمندان گوگل از ایجاد Transframer، یک چارچوب جدید با قابلیت تولید ویدیوهای کوتاه بر اساس ورودی‌های تصویر منفرد خبر دادند. فناوری جدید روزی می‌تواند راه‌حل‌های رندر سنتی را تقویت کند و به توسعه‌دهندگان این امکان را می‌دهد تا محیط‌های مجازی را بر اساس قابلیت‌های یادگیری ماشین ایجاد کنند.

نام چارچوب جدید (و از جهاتی مفهوم) اشاره‌ای به مدل دیگری مبتنی بر هوش مصنوعی به نام Transformer است. Transformer که در ابتدا در سال 2017 معرفی شد، یک معماری جدید شبکه عصبی با قابلیت تولید متن با مدلسازی و مقایسه کلمات دیگر در یک جمله است. این مدل از آن زمان در چارچوب های یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است.

بیشتر بخوانید: ربات هایی با هوش مصنوعی نژادپرستانه ؛ خطر هوش مصنوعی چقدر جدی است؟

هوش مصنوعی transframer گوگل

همانطور که Transformer از زبان برای پیش‌بینی خروجی‌های بالقوه استفاده می‌کند، Transframer از تصاویر زمینه با ویژگی‌های مشابه برای ایجاد ویدیوهای کوتاه استفاده می‌کند. نتایج نهایی ویدئوها بر اساس تصاویر داده شده تغییر می‌کند و با وجود اینکه هیچ داده هندسی در ورودی‌های تصویر اصلی ارائه نشده، پرسپکتیوهای دقیقی را در نتیجه نهایی مشاهده می‌کنیم.

Transframer یک چارچوب مولد همه‌منظوره است که می‌تواند بسیاری از کارهای تصویری و ویدئویی را در یک محیط فرضی انجام دهد. این پروژه جدید نشان می‌دهد که در پیش‌بینی ویدیو و ترکیب مشاهده عالی است و می‌تواند ویدیوهای 30 ثانیه‌ای را از یک تصویر تولید کند.

این فناوری جدید که با استفاده از پلتفرم هوش‌مصنوعی DeepMind گوگل نشان داده شده است، با تجزیه و تحلیل یک تصویر زمینه عکس برای به‌دست‌آوردن قطعات کلیدی داده‌‌های تصویر و تولید تصاویر اضافی عمل می‌کند. در طی این تجزیه و تحلیل، سیستم قاب عکس را شناسایی می‌کند، که به نوبه خود به سیستم کمک نموده تا محیط اطراف عکس را پیش‌بینی کند.

سپس از تصاویر زمینه برای پیش‌بینی بیشتر نحوه ظاهر شدن یک تصویر از زوایای مختلف استفاده می‌شود. پیش‌بینی احتمال فریم‌های تصویر اضافی را بر اساس داده‌ها، حاشیه‌نویسی‌ها و هر اطلاعات دیگری که از فریم‌های زمینه موجود است، مدل می‌کند.

این چارچوب با ارائه توانایی تولید ویدیوی دقیق و معقول بر اساس مجموعه بسیار محدودی از داده‌ها، گام بزرگی را در فناوری ویدیو نشان می‌دهد. آزمایشات Transframer همچنین نتایج بسیار امیدوارکننده‌ای را در سایر وظایف و معیارهای مرتبط با ویدئو مانند تقسیم‌بندی معنایی، طبقه‌بندی تصویر و پیش‌بینی‌های جریان‌نوری نشان داده‌اند.

پیامدهای آن برای صنایع مبتنی بر ویدئو، مانند توسعه بازی، می‌تواند به طور بالقوه بسیار زیاد باشد. محیط‌های توسعه بازی کنونی بر تکنیک‌های رندر اصلی مانند سایه‌زنی، نقشه‌برداری بافت، عمق‌میدان و ردیابی پرتو تکیه دارند.

فناوری‌هایی مانند Transframer این پتانسیل را دارند که با استفاده از هوش‌مصنوعی و یادگیری ماشینی برای ساخت محیط‌هایشان مسیر توسعه‌ای کاملاً جدید را به توسعه‌دهندگان ارائه‌دهند و در‌عین‌حال زمان، منابع و تلاش لازم برای ایجاد آن‌ها را کاهش دهند.

بیشتر بخوانید:

نظر شما در مورد هوش مصنوعی transframer گوگل چیست؟ نظرات خود را با ما به اشتراک بگذارید و اخبار تکنولوژی را از تکراتو دنبال کنید.

ارسال برای دوستان در: واتساپ | تلگرام | توییتر

جدیدترین اخبار تکراتو

هوش مصنوعی transframer گوگل با یک عکس، ویدیو می‌سازد!

هوش مصنوعی transframer گوگل

مقالات آموزشی تکراتو