مدلسازی سهبعدی واقعگرایانه با هوش مصنوعی: گامی نوین
ساختن مدلهای سهبعدی واقعگرایانه برای کارهایی مثل واقعیت مجازی، فیلمسازی و طراحی مهندسی، یه پروسهی سخت و وقتگیره که نیاز به آزمون و خطای دستی زیادی داره. در حالی که مدلهای هوش مصنوعی مولد برای عکسها میتونن کارای هنری رو آسونتر کنن و به هنرمندا این امکان رو بدن که از متن، تصاویر دوبعدی واقعی بسازن، این مدلها برای ساختن شکلهای سهبعدی هنوز خوب نیستن.
روش جدید: تقطیر نمره
برای حل این مشکل، یه روش جدید به اسم تقطیر نمره ابداع شده که از مدلهای تولید عکس دوبعدی برای ساختن شکلهای سهبعدی استفاده میکنه. اما خروجی این روش معمولاً یه کم گنگ یا کارتونی به نظر میرسه. دانشمندای MIT رفتن سراغ بررسی رابطهها و تفاوتهای بین الگوریتمهایی که برای ساختن عکسهای دوبعدی استفاده میشن با اونایی که برای ساختن شکلهای سهبعدی. اونا فهمیدن که مشکل اصلی کیفیت پایین مدلهای سهبعدی چیه.
بعد از این فهمیدن، یه تغییر کوچیک تو روش تقطیر نمره دادن که به کمکش میشه شکلهای سهبعدی تیز و با کیفیت بالا ساخت؛ کیفیتی که نزدیک به بهترین عکسهای دوبعدیای هست که این مدلها میتونن بسازن. روشهای دیگه سعی میکنن این مشکل رو با آموزش دوباره یا تنظیم دقیق مدل هوش مصنوعی حل کنن که این خودش هم هزینهبره و هم زمان میبره. ولی روش دانشمندای MIT کیفیت شکلهای سهبعدی رو به اندازهی روشهای دیگه یا حتی بهتر از اونا، بدون نیاز به آموزش اضافه یا پردازش پیچیده بعد از تولید، بالا میبره.
درک بهتر ریاضی و آینده پژوهش
علاوه بر این، دانشمندا با فهمیدن علت این مشکل، درک ریاضی بهتری از روش تقطیر نمره و روشهای مشابه پیدا کردن که این باعث پیشرفت تو کارهای آینده میشه. آرتیم لوکویانوف، دانشجوی دکترا تو رشته مهندسی برق و علوم کامپیوتر (EECS) و نویسندهی اول یه مقاله در این مورد میگه: “حالا میدونیم باید به کجا بریم، و این بهمون این امکان رو میده که راهحلهای بهتری پیدا کنیم که هم سریعتر باشن و هم کیفیت بالاتری داشته باشن.” اون ادامه میده: “در طولانیمدت، کار ما میتونه به آسونتر کردن این پروسه کمک کنه و به طراحا کمک کنه که شکلهای سهبعدی واقعگرایانهتری بسازن.”

همکارای لوکویانوف شامل هایتز سائز دی اوکاریز بورد، دانشجوی دکترا تو دانشگاه آکسفورد؛ کریستجان گرینوالد، دانشمند پژوهشی توی آزمایشگاه هوش مصنوعی MIT-IBM واتسون؛ ویتور کامپاگنولو گیزیلینی، دانشمند توی موسسه تحقیقاتی تویوتا؛ تیمور باگوتدینوف، دانشمند پژوهشی در متا؛ و نویسندههای ارشد وینسنت سیتزمن، استادیار EECS در MIT، که گروه نمایندگی صحنه رو توی آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) رهبری میکنه و جاستین سلیمان، استادیار EECS و رهبر گروه پردازش دادههای هندسی CSAIL هستن. این تحقیق توی کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه خواهد شد.
از عکسهای دوبعدی تا شکلهای سهبعدی
مدلهای دیفیوژن، مثل DALL-E، یه نوع مدل هوش مصنوعی مولد هستن که میتونن عکسهای واقعگرایانهای از نویز تصادفی بسازن. برای آموزش این مدلها، دانشمندا به عکسها نویز اضافه میکنن و بعد به مدل آموزش میدن که این پروسه رو برعکس کنه و نویز رو حذف کنه. این مدلها از پروسهی “کم کردن نویز” یاد گرفته شده برای ساختن عکس بر اساس متنهایی که کاربر میده، استفاده میکنن. اما مدلهای دیفیوژن تو ساختن مستقیم شکلهای سهبعدی عملکرد خوبی ندارن چون دادههای سهبعدی کافی برای آموزش اونا وجود نداره.
توسعه روش SDS برای بهتر شدن تولید شکلهای سهبعدی
برای حل این مشکل، دانشمندا تو سال 2022 یه روش به اسم نمونهبرداری تقطیر امتیاز (SDS) رو توسعه دادن که از یه مدل دیفیوژن از قبل آموزشدیده استفاده میکنه تا عکسهای دوبعدی رو به یه نمایش سهبعدی تبدیل کنه. این روش شامل اینه که اول یه نمایش سهبعدی تصادفی رو شروع کنی، یه نمای دوبعدی از یه شیء مورد نظر از یه زاویه دوربین تصادفی بسازی، به اون عکس نویز اضافه کنی، با استفاده از مدل دیفیوژن نویز رو حذف کنی و بعد نمایش سهبعدی تصادفی رو طوری تنظیم کنی که با تصویری که از نویز پاک شده، یکی بشه. این مراحلو اونقدر تکرار میکنن تا شیء سهبعدی مورد نظر ساخته بشه. اما شکلهای سهبعدی که اینجوری ساخته میشن معمولاً تار یا اشباع شده به نظر میرسن.

لوکویانوف میگه: “این مسئله یه مدتی هست که یه مانع بزرگ بوده. ما میدونیم که مدلی که زیر این روش کار میکنه، میتونه بهتر عمل کنه، اما مردم نمیدونستن چرا این مشکل با شکلهای سهبعدی وجود داره.”
تحلیل مراحل SDS
دانشمندا مراحل SDS رو بررسی کردن و یه عدم تطابق بین یه فرمول که بخش اصلی این پروسه رو تشکیل میده و معادل اون تو مدلهای دیفیوژن دوبعدی، پیدا کردن. این فرمول به مدل میگه که چطوری نمایش تصادفی رو با اضافه و حذف کردن نویز، مرحله به مرحله، به تصویر مورد نظر نزدیک کنه. چون بخشی از این فرمول شامل یه معادلهست که حل کردنش راحت نیست، SDS اون رو تو هر مرحله با نویز نمونهبرداری تصادفی جایگزین میکنه. دانشمندا MIT فهمیدن که این نویز باعث میشه شکلهای سهبعدی تار یا مشابه همدیگه بشن.
پاسخ تقریبی
به جای اینکه سعی کنن این معادله پیچیده رو دقیق حل کنن، دانشمندا روشهای تقریبی رو امتحان کردن تا بهترین روش رو پیدا کنن. به جای نمونهبرداری تصادفی از عبارت نویز، روش تقریبیشون عبارت گمشده رو از رندر فعلی شکل سهبعدی برداشت میکنه. لوکویانوف میگه: “با انجام این کار، همونطور که تحلیل مقاله نشون میده، شکلهای سهبعدی تولید میشن که تیز و واقعگرایانه به نظر میرسن.”

علاوه بر این، دانشمندا کیفیت رندر عکس رو بالا بردن و بعضی از پارامترهای مدل رو تنظیم کردن تا کیفیت شکلهای سهبعدی رو بیشتر خوب کنن. در نهایت، اونا تونستن از یه مدل دیفیوژن عکس که از قبل آموزشدیده و آمادهست، برای ساختن شکلهای سهبعدی واقعگرایانه و صاف، بدون نیاز به آموزش دوبارهی پرهزینه، استفاده کنن. اشیاء سهبعدی که ساخته شدن، به طور مشابه تیزن و با روشهای دیگه که به راهحلهای خاص بستگی دارن، قابل مقایسهان.
لوکویانوف میگه: “تلاش برای آزمایش بیهدف با پارامترهای مختلف، بعضی وقتا جواب میده و بعضی وقتا نه، اما آدم نمیدونه چرا. ما میدونیم که این یه معادلهست که باید حلش کنیم. حالا، این به ما این اجازه رو میده که به روشهای کارآمدتری برای حلش فکر کنیم.”
چالشهای موجود و آیندهی تحقیق
چون روش اونا به یه مدل دیفیوژن از قبل آموزشدیده وابسته است، این روش به تعصبات و کمبودهای اون مدل دچار میشه و ممکنه باعث توهمات و مشکلات دیگه بشه. بهتر کردن مدل دیفیوژن زیربنایی میتونه روش اونا رو بهتر کنه. علاوه بر مطالعهی فرمول برای پیدا کردن راههای موثرتر برای حلش، دانشمندا به بررسی این موضوع علاقهمند هستن که چطور این بینشها میتونن روشهای ویرایش عکس رو بهتر کنن.
بیشتر بخوانید
مدیتیشن یک روز پربرکت برای جذب عشق وامنیت و سلامتی
خود هیپنوتیزم درمان زود انزالی در مردان توسط هیپنوتراپیست رضا خدامهری
تقویت سیستم ایمنی بدن با خود هیپنوتیزم
شمس و طغری
خود هیپنوتیزم ماندن در رژیم لاغری و درمان قطعی چاقی کاملا علمی و ایمن
خود هیپنوتیزم تقویت اعتماد به نفس و عزت نفس