ابزارهای تولید تصویر از متن از حوزههای کاربردی و جذاب در هوش مصنوعی هستند. این ابزارها با کمک الگوریتمهای هوش مصنوعی و یادگیری ماشین ساخته شده و با حجم عظیمی از دادهها آموزش دیدهاند. سپس توضیحی از شما دریافت کرده و متناسب با آن تصویر موردنظر را ایجاد میکنند.
میدجورنی یکی از ابزارهای کاربردی در این زمینه است که میتواند طیف وسیعی از تصاویر را برای شما ایجاد کند. این ابزار به صورت ربات طراحی شده تا کاربر به راحتی با آن صحبت کرده و درخواست خود را مبنی بر تولید عکس ارائه دهد. حال باید ببینیم این ابزار دقیقا پگونه کار میکند و نحوه تولید عکس با آن به چه صورت است؟
هوش مصنوعی میدجورنی چیست؟
Midjourney’s AI Art Generative Tool یک برنامه هوش مصنوعی بسیار قدرتمند است که به شما کمک میکند تا با کمک هوش مصنوعی و الگوریتمهای یادگیری ماشین تصاویر زیبایی ایجاد کنید. Midjourney با یک رابط کاربر پسند ساخته شده است، که برای نشان دادن خلاقیت شما گزینهای عالی است. همچنین باعث صرفه جویی در وقت شما میشود.
این برنامه مانند نمونههای که قبلا ارائه شدهاند مانند DALL-E، یک هوش مصنوعی برای تبدیل متن به تصویر است که تصاویری فوقالعاده را بر اساس پیامهای متنی شما ایجاد میکند.
با توجه به انتخاب شما، Midjourney ترجیح میدهد تصاویری با رنگهای مکمل، استفاده هنرمندانه از نور و سایه، جزئیات واضح و ترکیب بندی با تقارن یا پرسپکتیو رضایت بخش ایجاد کند. به گفته بنیانگذار آن، برنامه ساخته شده به سادگی در دسترس و قابل استفاده است و برای ایجاد تصاویر خوب ساخته شده است.
Midjourneyیک آزمایشگاه تحقیقاتی مستقل است که با برنامه هوش مصنوعی خود موجی در دنیای هوش مصنوعی ایجاد کرده است. این برنامه برای ایجاد تصاویر از توضیحات متنی طراحی شده است، مانند DALL-E و Stable Diffusion OpenAI. در حالی که فناوری زیربنایی مبتنی بر Stable Diffusion باشد.
مهمترین ویژگی و مزیت میدجورنی در مقایسه با ابزارهای دیگر چیست؟
اگر با ابزارهای مختلف تولید تصویر هوش مصنوعی کار کرده باشید، متوجه تغییراتی در تصاویر ایجاد شده توسط آنها شدهاید. در ابزار Dall-E که توسط شرکت OpenAI ساخته شده، تصاویر عالی و باکیفیتی تولید میشود اما این تصاویر کمی تحریف شده و فتوشاچ شده به نظر میآیند. این مشکل در تصاویر میدجورنی وجود ندارد.
در واقع مهمترین ویژگی این ابزار این است که تصاویر تولید شده با آن بیش از حد واقعی به نظر میرسند. حتی نقاشیهای تولید شده با این ابزار، با جزئیات کامل و صاحب سبک به نظر میآیند. این موضوع در صحبتهای تیم بنیان گذار این ابزار نیز به گوش میرسد. آنها میگویند هدف تیم سازنده تنها خلق آثار هنری نیست، بلکه تلاش آنها در راستای گسترش قدرت تخیل پردازی انسان است.
چگونه از Midjourney استفاده میشود؟
برخلاف DALL·E 2 یا DALL·E Mini، Midjourney به عنوان یک برنامه وب کار نمیکند. همچنین نیازی به کدنویسی ندارد. درعوض، با «صحبت کردن» با یک ربات، از آن در یک برنامه چت محبوب به نام Discord استفاده میکنید، کار میکند. (Discord،، بسیار شبیه Slack است، هم در مرورگر شما، هم روی دسکتاپ و هم در تلفن همراه کار میکند.)
اگر بهعنوان یک کاربر رایگان/آزمایشی، از این چت استفاده کنید، در یک چت روم عمومی با این ربات صحبت میکنید. این موضوع میتواند در شروع استفاده از این چت مفید باشد.
اما هنگامی که با پرداخت هزینه به عنوان کاربر پولی از این ربات استفاده میکنید، میتوانید در یک مکالمه خصوصی برای ربات پیام ارسال کنید و تجربهای بهتر داشته باشید. توضیح کاملی درباره تصویر موردنظر وارد کنید.
تولید تصاویر حدود 2 برابر بیشتر از DALL·E یعنی حدود 50 ثانیه طول میکشد.
با این حال، برخلاف DALL·E، میتوانید مراحل تولید تصویر را تماشا کنید. هوش مصنوعی به تدریج تصاویر شما را از رنگهای تار اولیه گرفته تا تصاویر کوچک با وضوح بالا تولید میکند.
برخلاف DALL·E، مرحله دوم نیز وجود دارد: تصاویر کوچک اولیه فقط 256 پیکسل هستند. در این مرحله میتوانید کیفیت مورد نظر خود را به کیفیت کامل ارتقا دهید. تکمیل این فرآیند ارتقاء یک دقیقه یا بیشتر طول میکشد.
جایگاه میدجورنی در میان هوش مصنوعیهای دیگر
آزمایشگاهها و شرکتهای زیادی روی فناوری مشابهی برای تبدیل متن به تصویر کار میکنند. از جمله گوگل «ایمجن» (Imagen) را دارد و «دال-ای» (Dall-E) متعلق به «اوپن ایآی» (Open AI) است و حتی پروژههای کوچکتری مانند «کرایون» (Craiyon) هم وجود دارند.
برای اینکه هوش مصنوعی چنین قدرتی داشته باشد، باید دو جنبهی درک زبان و توانایی خلق تصاویر با هم ترکیب شوند و اینجاست که میتوان کارهای خارقالعادهای انجام داد.
هولز گفت: «در یکی دو سال آینده، میتوانید محتوا را در زمان واقعی ایجاد کنید: ۳۰ فریم در ثانیه با وضوح بالا. گران خواهد بود، اما ممکن است. سپس ۱۰ سال دیگر، میتوانید یک ایکسباکس با یک پردازندهی قدرتمند هوش مصنوعی بخرید و بدین ترتیب همهی بازیها همان رؤیای شما هستند.»
از منظر فناوری اینها واقعیت هستند و هیچ راهی برای دور زدن آن وجود ندارد اما از نگاه انسانی چطور؟ باید راهی برای کاربردی ساختن این هوش مصنوعی وجود داشته باشد و به همین دلیل میدجورنی تمرکز خود را بر اجتماعی کردن این فناوری گذاشته است.
به گفتهی این تیم، پس از اولین آزمایشها، آنها خیلی زود متوجه شدند که مردم بهصورت انفرادی در یک ساختار منسجم درخواست ندارند و هنگام نوشتن متن، بیهدف از یک موضوع، به سراغ موضوعی متفاوت میروند.
اما در محیطی اجتماعی مانند دیسکورد این امکان وجود دارد که توصیفهای یکدیگر را تکمیل کنند و با تخیل گروهی چیزهایی کاربردیتر خلق کنند.
از سوی دیگر این هوش مصنوعی دارای یک پیشزمینهی هنری است و به همین دلیل عواطف انسانی را درگیر میکند.
به گفتهی هولز، اگر با گفتن یک واژه مثلا «سگ» عکس آن را نشان دهد، همان کاری است که جستوجوی گوگل هم انجام میدهد اما نگاه هنرمندانهای که در آثار تولید شده دخیل میکند ویژگی خاص این هوش مصنوعی ست.
از نظر مقایسه با دیگر ترندهای هوش مصنوعی هم در حالی که تصاویر دال-ای در اغلب موارد واقعگرایانهتر هستند، تمرکز میدجورنی بر خلق آثار هنری متفاوت است. به عبارتی میتوان گفت که دال-ای صحنههای بسیار واضح ایجاد میکند اما میدجورنی بافتی خلاقانهتر و شگفتانگیزتر ارائه میدهد.
جمع بندی
شاید دیگر داشتن توانایی نقاشی یا تصویر سازی اهمیت زیادی نداشته باشد. هوش مصنوعی روز به روز در حال پیشرفت و توسعه است و ابزارهای ایجاد شده در این زمینه انواع مختلفی از تصاویر را با ویژگیهای بسیار عالی و کاربردی تولید میکنند. میدجورنی یکی از ابزارهای شناخته شده در این زمینه است که میتواند تنوع بالایی از تصاویر را با ویژگیهای مختلف ایجاد کند.
در این مقاله به معرفی این ابزار و نحوه استفاده از آن پرداخته شد. به نظر شما میدجورنی در آینده با چه پیشرفتهایی همراه خواهد بود؟
بوت کمپ برنامه نویسی مپصا اچ آر(mapsahr) برای علاقه مندان به هوش مصنوعی مقاله جامعی از منابع یادگیری هوش مصنوعی را منتشر کرده است.