ساخت مدل سه‌بعدی با هوش مصنوعی: انقلاب در سینما، بازی و مهندسی! 🤯

مدل‌سازی سه‌بعدی واقع‌گرایانه با هوش مصنوعی: گامی نوین

ساختن مدل‌های سه‌بعدی واقع‌گرایانه برای کارهایی مثل واقعیت مجازی، فیلم‌سازی و طراحی مهندسی، یه پروسه‌ی سخت و وقت‌گیره که نیاز به آزمون و خطای دستی زیادی داره. در حالی که مدل‌های هوش مصنوعی مولد برای عکس‌ها می‌تونن کارای هنری رو آسون‌تر کنن و به هنرمندا این امکان رو بدن که از متن، تصاویر دو‌بعدی واقعی بسازن، این مدل‌ها برای ساختن شکل‌های سه‌بعدی هنوز خوب نیستن.

روش جدید: تقطیر نمره

برای حل این مشکل، یه روش جدید به اسم تقطیر نمره ابداع شده که از مدل‌های تولید عکس دو‌بعدی برای ساختن شکل‌های سه‌بعدی استفاده می‌کنه. اما خروجی این روش معمولاً یه کم گنگ یا کارتونی به نظر میرسه. دانشمندای MIT رفتن سراغ بررسی رابطه‌ها و تفاوت‌های بین الگوریتم‌هایی که برای ساختن عکس‌های دو‌بعدی استفاده میشن با اونایی که برای ساختن شکل‌های سه‌بعدی. اونا فهمیدن که مشکل اصلی کیفیت پایین مدل‌های سه‌بعدی چیه.

بعد از این فهمیدن، یه تغییر کوچیک تو روش تقطیر نمره دادن که به کمکش میشه شکل‌های سه‌بعدی تیز و با کیفیت بالا ساخت؛ کیفیتی که نزدیک به بهترین عکس‌های دو‌بعدی‌ای هست که این مدل‌ها می‌تونن بسازن. روش‌های دیگه سعی می‌کنن این مشکل رو با آموزش دوباره یا تنظیم دقیق مدل هوش مصنوعی حل کنن که این خودش هم هزینه‌بره و هم زمان می‌بره. ولی روش دانشمندای MIT کیفیت شکل‌های سه‌بعدی رو به اندازه‌ی روش‌های دیگه یا حتی بهتر از اونا، بدون نیاز به آموزش اضافه یا پردازش پیچیده بعد از تولید، بالا می‌بره.

درک بهتر ریاضی و آینده پژوهش

علاوه بر این، دانشمندا با فهمیدن علت این مشکل، درک ریاضی بهتری از روش تقطیر نمره و روش‌های مشابه پیدا کردن که این باعث پیشرفت تو کارهای آینده میشه. آرتیم لوکویانوف، دانشجوی دکترا تو رشته مهندسی برق و علوم کامپیوتر (EECS) و نویسنده‌ی اول یه مقاله در این مورد میگه: “حالا می‌دونیم باید به کجا بریم، و این بهمون این امکان رو میده که راه‌حل‌های بهتری پیدا کنیم که هم سریع‌تر باشن و هم کیفیت بالاتری داشته باشن.” اون ادامه میده: “در طولانی‌مدت، کار ما می‌تونه به آسون‌تر کردن این پروسه کمک کنه و به طراحا کمک کنه که شکل‌های سه‌بعدی واقع‌گرایانه‌تری بسازن.”

یه هنرمند دیجیتال تو یه استودیوی مدرن، با مدل‌های سه‌بعدی و عکس‌های ساخته شده با هوش مصنوعی. — تصویرسازی دنیای هنر دیجیتال و نوآوری تو مدل‌سازی سه‌بعدی با استفاده از هوش مصنوعی.

همکارای لوکویانوف شامل هایتز سائز دی اوکاریز بورد، دانشجوی دکترا تو دانشگاه آکسفورد؛ کریستجان گرینوالد، دانشمند پژوهشی توی آزمایشگاه هوش مصنوعی MIT-IBM واتسون؛ ویتور کامپاگنولو گیزیلینی، دانشمند توی موسسه تحقیقاتی تویوتا؛ تیمور باگوتدینوف، دانشمند پژوهشی در متا؛ و نویسنده‌های ارشد وینسنت سیتزمن، استادیار EECS در MIT، که گروه نمایندگی صحنه رو توی آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) رهبری می‌کنه و جاستین سلیمان، استادیار EECS و رهبر گروه پردازش داده‌های هندسی CSAIL هستن. این تحقیق توی کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه خواهد شد.

از عکس‌های دو‌بعدی تا شکل‌های سه‌بعدی

مدل‌های دیفیوژن، مثل DALL-E، یه نوع مدل هوش مصنوعی مولد هستن که می‌تونن عکس‌های واقع‌گرایانه‌ای از نویز تصادفی بسازن. برای آموزش این مدل‌ها، دانشمندا به عکس‌ها نویز اضافه می‌کنن و بعد به مدل آموزش میدن که این پروسه رو برعکس کنه و نویز رو حذف کنه. این مدل‌ها از پروسه‌ی “کم کردن نویز” یاد گرفته شده برای ساختن عکس بر اساس متن‌هایی که کاربر میده، استفاده می‌کنن. اما مدل‌های دیفیوژن تو ساختن مستقیم شکل‌های سه‌بعدی عملکرد خوبی ندارن چون داده‌های سه‌بعدی کافی برای آموزش اونا وجود نداره.

توسعه روش SDS برای بهتر شدن تولید شکل‌های سه‌بعدی

برای حل این مشکل، دانشمندا تو سال 2022 یه روش به اسم نمونه‌برداری تقطیر امتیاز (SDS) رو توسعه دادن که از یه مدل دیفیوژن از قبل آموزش‌دیده استفاده می‌کنه تا عکس‌های دو‌بعدی رو به یه نمایش سه‌بعدی تبدیل کنه. این روش شامل اینه که اول یه نمایش سه‌بعدی تصادفی رو شروع کنی، یه نمای دو‌بعدی از یه شیء مورد نظر از یه زاویه دوربین تصادفی بسازی، به اون عکس نویز اضافه کنی، با استفاده از مدل دیفیوژن نویز رو حذف کنی و بعد نمایش سه‌بعدی تصادفی رو طوری تنظیم کنی که با تصویری که از نویز پاک شده، یکی بشه. این مراحلو اونقدر تکرار می‌کنن تا شیء سه‌بعدی مورد نظر ساخته بشه. اما شکل‌های سه‌بعدی که اینجوری ساخته میشن معمولاً تار یا اشباع شده به نظر می‌رسن.

نمایشی از روش تقطیر نمره با جریان پروسه تبدیل عکس‌های دو‌بعدی به مدل‌های سه‌بعدی شفاف. — توضیح گام به گام روش تقطیر نمره برای ساختن شکل‌های سه‌بعدی با کیفیت.

لوکویانوف میگه: “این مسئله یه مدتی هست که یه مانع بزرگ بوده. ما می‌دونیم که مدلی که زیر این روش کار می‌کنه، می‌تونه بهتر عمل کنه، اما مردم نمی‌دونستن چرا این مشکل با شکل‌های سه‌بعدی وجود داره.”

تحلیل مراحل SDS

دانشمندا مراحل SDS رو بررسی کردن و یه عدم تطابق بین یه فرمول که بخش اصلی این پروسه رو تشکیل میده و معادل اون تو مدل‌های دیفیوژن دو‌بعدی، پیدا کردن. این فرمول به مدل میگه که چطوری نمایش تصادفی رو با اضافه و حذف کردن نویز، مرحله به مرحله، به تصویر مورد نظر نزدیک کنه. چون بخشی از این فرمول شامل یه معادله‌ست که حل کردنش راحت نیست، SDS اون رو تو هر مرحله با نویز نمونه‌برداری تصادفی جایگزین می‌کنه. دانشمندا MIT فهمیدن که این نویز باعث میشه شکل‌های سه‌بعدی تار یا مشابه همدیگه بشن.

پاسخ تقریبی

به جای اینکه سعی کنن این معادله پیچیده رو دقیق حل کنن، دانشمندا روش‌های تقریبی رو امتحان کردن تا بهترین روش رو پیدا کنن. به جای نمونه‌برداری تصادفی از عبارت نویز، روش تقریبی‌شون عبارت گمشده رو از رندر فعلی شکل سه‌بعدی برداشت می‌کنه. لوکویانوف میگه: “با انجام این کار، همونطور که تحلیل مقاله نشون میده، شکل‌های سه‌بعدی تولید میشن که تیز و واقع‌گرایانه به نظر میرسن.”

یه محقق که داره داده‌ها رو با استفاده از معادلات ریاضی روی کامپیوتر تحلیل می‌کنه. — کشف رابطه‌های ریاضی تو پروسه ساخت مدل‌های سه‌بعدی برای بهتر کردن کیفیت اونا.

علاوه بر این، دانشمندا کیفیت رندر عکس رو بالا بردن و بعضی از پارامترهای مدل رو تنظیم کردن تا کیفیت شکل‌های سه‌بعدی رو بیشتر خوب کنن. در نهایت، اونا تونستن از یه مدل دیفیوژن عکس که از قبل آموزش‌دیده و آماده‌ست، برای ساختن شکل‌های سه‌بعدی واقع‌گرایانه و صاف، بدون نیاز به آموزش دوباره‌ی پرهزینه، استفاده کنن. اشیاء سه‌بعدی که ساخته شدن، به طور مشابه تیزن و با روش‌های دیگه که به راه‌حل‌های خاص بستگی دارن، قابل مقایسه‌ان.

لوکویانوف میگه: “تلاش برای آزمایش بی‌هدف با پارامترهای مختلف، بعضی وقتا جواب میده و بعضی وقتا نه، اما آدم نمی‌دونه چرا. ما می‌دونیم که این یه معادله‌ست که باید حلش کنیم. حالا، این به ما این اجازه رو میده که به روش‌های کارآمدتری برای حلش فکر کنیم.”

چالش‌های موجود و آینده‌ی تحقیق

چون روش اونا به یه مدل دیفیوژن از قبل آموزش‌دیده وابسته است، این روش به تعصبات و کمبودهای اون مدل دچار میشه و ممکنه باعث توهمات و مشکلات دیگه بشه. بهتر کردن مدل دیفیوژن زیربنایی می‌تونه روش اونا رو بهتر کنه. علاوه بر مطالعه‌ی فرمول برای پیدا کردن راه‌های موثرتر برای حلش، دانشمندا به بررسی این موضوع علاقه‌مند هستن که چطور این بینش‌ها می‌تونن روش‌های ویرایش عکس رو بهتر کنن.