مدل‌سازی-واقع‌گرایانه-3D-هوش‌مصنوعی

مدل‌سازی واقع‌گرایانه 3D با استفاده از هوش مصنوعی

ایجاد مدل‌های واقع‌گرایانه 3D برای کاربردهایی نظیر واقعیت مجازی، فیلم‌سازی و طراحی مهندسی می‌تواند فرآیندی دشوار و زمان‌بر باشد که نیاز به آزمایش و خطای دستی زیادی دارد. در حالی که مدل‌های هوش مصنوعی مولد برای تصاویر می‌توانند فرآیندهای هنری را تسهیل کرده و به خالقان این امکان را بدهند که تصاویر 2D واقعی از متن تولید کنند، اما این مدل‌ها برای تولید اشکال 3D طراحی نشده‌اند.

تکنیک جدید: تقطیر نمره

برای پر کردن این شکاف، یک تکنیک جدید به نام تقطیر نمره توسعه یافته است که از مدل‌های تولید تصویر 2D برای ایجاد اشکال 3D استفاده می‌کند. با این حال، خروجی این تکنیک معمولاً به صورت مبهم یا کارتونی به نظر می‌رسد. محققان MIT به بررسی روابط و تفاوت‌های بین الگوریتم‌های استفاده‌شده برای تولید تصاویر 2D و اشکال 3D پرداختند و علت اصلی کیفیت پایین مدل‌های 3D را شناسایی کردند.

از آنجا، آن‌ها یک اصلاح ساده برای تقطیر نمره طراحی کردند که امکان تولید اشکال 3D تیز و با کیفیت بالا را فراهم می‌کند؛ که به کیفیت بهترین تصاویر 2D تولیدشده توسط مدل نزدیک‌تر است. برخی دیگر از روش‌ها سعی دارند این مشکل را با آموزش مجدد یا تنظیم دقیق مدل هوش مصنوعی مولد حل کنند که می‌تواند هزینه‌بر و زمان‌بر باشد. در مقابل، تکنیک محققان MIT کیفیت اشکال 3D را در سطحی برابر یا بهتر از این روش‌ها، بدون نیاز به آموزش اضافی یا پردازش پیچیده پس‌پردازش، به دست می‌آورد.

بهبود درک ریاضی و آینده پژوهش

علاوه بر این، با شناسایی علت مشکل، محققان درک ریاضی بهتری از تقطیر نمره و تکنیک‌های مرتبط به دست آورده‌اند که امکان بهبود عملکرد در کارهای آینده را فراهم می‌کند. آرتیم لوکویانوف، دانشجوی تحصیلات تکمیلی در رشته مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله‌ای در مورد این تکنیک می‌گوید: “حالا می‌دانیم که باید به کجا برویم، که این امکان را به ما می‌دهد که راه‌حل‌های کارآمدتری پیدا کنیم که سریع‌تر و با کیفیت بالاتر باشند.” او ادامه می‌دهد: “در درازمدت، کار ما می‌تواند به تسهیل این فرآیند کمک کند و به طراحان کمک کند تا اشکال 3D واقع‌گرایانه‌تری ایجاد کنند.”

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول
یک هنرمند دیجیتال در استودیوی مدرن با مدل‌های 3D و تصاویر تولید شده توسط هوش مصنوعی.
تجسم دنیای هنری دیجیتال و نوآوری در مدل‌سازی 3D با استفاده از هوش مصنوعی.

همکاران لوکویانوف شامل هایتز سائز د اوکاریز بورد، دانشجوی تحصیلات تکمیلی در دانشگاه آکسفورد؛ کریستجان گرینوالد، دانشمند پژوهشی در آزمایشگاه هوش مصنوعی MIT-IBM واتسون; ویتور کامپاگنولو گیزیلینی، دانشمند در مؤسسه تحقیقاتی تویوتا؛ تیمور باگوتدینوف، دانشمند پژوهشی در متا؛ و نویسندگان ارشد وینسنت سیتزمن، استادیار EECS در MIT، که گروه نمایندگی صحنه را در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) رهبری می‌کند و جاستین سلیمان، استادیار EECS و رهبر گروه پردازش داده‌های هندسی CSAIL هستند. این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه خواهد شد.

از تصاویر 2D تا اشکال 3D

مدل‌های دیفیوژن، مانند DALL-E، نوعی مدل هوش مصنوعی مولد هستند که می‌توانند تصاویر واقع‌گرایانه‌ای از نویز تصادفی تولید کنند. برای آموزش این مدل‌ها، محققان نویز را به تصاویر اضافه می‌کنند و سپس به مدل آموزش می‌دهند که این فرآیند را معکوس کند و نویز را حذف کند. این مدل‌ها از فرآیند “کاهش نویز” آموخته‌شده برای ایجاد تصاویر بر اساس متن‌های کاربر استفاده می‌کنند. اما مدل‌های دیفیوژن در تولید مستقیم اشکال 3D واقع‌گرایانه عملکرد خوبی ندارند زیرا داده‌های 3D کافی برای آموزش آن‌ها وجود ندارد.

توسعه تکنیک SDS برای بهبود تولید اشکال سه‌بعدی

برای حل این مشکل، محققان در سال 2022 تکنیکی به نام نمونه‌برداری تقطیر امتیاز (SDS) را توسعه دادند که از یک مدل دیفیوژن پیش‌آموزش‌دیده برای ترکیب تصاویر 2D به یک نمایش 3D استفاده می‌کند. این تکنیک شامل شروع با یک نمایش تصادفی 3D، رندر کردن یک نمای 2D از یک شیء مورد نظر از یک زاویه دوربین تصادفی، افزودن نویز به آن تصویر، حذف نویز با استفاده از مدل دیفیوژن و سپس بهینه‌سازی نمایش تصادفی 3D به‌گونه‌ای است که با تصویر پاک‌شده از نویز مطابقت داشته باشد. این مراحل تا زمانی که شیء 3D مورد نظر تولید شود، تکرار می‌شوند. با این حال، اشکال 3D تولیدشده به این روش معمولاً تار یا اشباع به نظر می‌رسند.

نمایشی از تکنیک تقطیر نمره با جریان فرایند تبدیل تصاویر 2D به مدل‌های 3D شفاف.
شرح گام به گام تکنیک تقطیر نمره برای تولید اشکال 3D باکیفیت.

لکویانوف می‌گوید: “این موضوع مدتی است که یک گلوگاه بوده است. ما می‌دانیم که مدل زیرین قادر به انجام بهتر است، اما مردم نمی‌دانستند چرا این مشکل با اشکال 3D وجود دارد.”

تحلیل مراحل SDS

محققان MIT مراحل SDS را بررسی کردند و عدم تطابقی را بین یک فرمول که بخش کلیدی این فرایند را تشکیل می‌دهد و معادل آن در مدل‌های دیفیوژن 2D شناسایی کردند. این فرمول به مدل می‌گوید که چگونه نمایش تصادفی را با افزودن و حذف نویز، مرحله به مرحله، به تصویر مورد نظر نزدیک‌تر کند. از آنجا که بخشی از این فرمول شامل یک معادله است که حل آن به‌طور کارآمد دشوار است، SDS آن را در هر مرحله با نویز نمونه‌برداری تصادفی جایگزین می‌کند. محققان MIT دریافتند که این نویز منجر به تولید اشکال 3D تار یا متشابه می‌شود.

پاسخ تقریبی

به جای تلاش برای حل دقیق این معادله پیچیده، محققان تکنیک‌های تقریبی را آزمایش کردند تا بهترین روش را شناسایی کنند. به جای نمونه‌برداری تصادفی از عبارت نویز، تکنیک تقریبی آن‌ها عبارت گمشده را از رندر فعلی شکل 3D استنباط می‌کند. لکویانوف می‌گوید: “با انجام این کار، همان‌طور که تحلیل در مقاله پیش‌بینی می‌کند، اشکال 3D تولید می‌شوند که تیز و واقع‌گرایانه به نظر می‌رسند.”

یک محقق که در حال تحلیل داده‌ها با استفاده از معادلات ریاضی بر روی کامپیوتر است.
کشف روابط ریاضی در فرآیند تولید مدل‌های 3D برای بهبود کیفیت آن‌ها.

علاوه بر این، محققان وضوح رندر تصویر را افزایش دادند و برخی از پارامترهای مدل را تنظیم کردند تا کیفیت اشکال 3D را بیشتر بهبود بخشند. در نهایت، آن‌ها توانستند از یک مدل دیفیوژن تصویر پیش‌آموزش‌دیده و آماده استفاده برای تولید اشکال 3D واقع‌گرایانه و صاف، بدون نیاز به آموزش مجدد پرهزینه، بهره‌برداری کنند. اشیاء 3D تولیدشده به‌طور مشابه تیز هستند و با روش‌های دیگر که به راه‌حل‌های موردی وابسته‌اند، قابل مقایسه‌اند.

لکویانوف می‌گوید: “تلاش برای آزمایش کورکورانه با پارامترهای مختلف، گاهی اوقات جواب می‌دهد و گاهی نه، اما نمی‌دانید چرا. ما می‌دانیم که این معادله‌ای است که باید حل کنیم. اکنون، این به ما اجازه می‌دهد تا به روش‌های کارآمدتری برای حل آن فکر کنیم.”

چالش‌های موجود و آینده تحقیق

از آنجا که روش آن‌ها به یک مدل دیفیوژن پیش‌آموزش‌دیده وابسته است، این روش به تعصبات و کاستی‌های آن مدل دچار است و ممکن است به توهمات و دیگر شکست‌ها منجر شود. بهبود مدل دیفیوژن زیرین می‌تواند فرآیند آن‌ها را ارتقا دهد. علاوه بر مطالعه فرمول برای یافتن راه‌های مؤثرتر برای حل آن، محققان به بررسی این موضوع علاقه‌مند هستند که چگونه این بینش‌ها می‌توانند تکنیک‌های ویرایش تصویر را بهبود بخشند.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *