افزایش-توانایی‌های-مدل‌های-هوش-مصنوعی

بالا بردن قابلیت‌های مدل‌های هوش مصنوعی از پیش آموزش‌دیده

توانایی‌های مدل‌های بزرگ هوش مصنوعی که قبلاً آموزش دیده‌اند، به طرز فوق‌العاده‌ای زیاد شده. این موضوع به خصوص با مدل‌های ترکیبی بینایی و زبان مثل CLIP و ChatGPT خیلی خوب دیده می‌شه. این مدل‌های عمومی می‌تونن توی کارهای مختلفی توی زمینه‌های گوناگون، کارایی نسبتاً خوبی داشته باشن، که همین باعث شده مردم ازشون استقبال زیادی بکنن. با وجود این، این گستردگی بی‌شک هزینه‌هایی هم داره. آموزش دادن و به اجرا درآوردن مدل‌های حجیم، به انرژی و زمان زیادی نیاز داره که با هدف‌های پایداری در تضاده و همینطور نوع کامپیوترهایی که می‌شه ازشون استفاده کرد رو محدود می‌کنه.

علاوه بر این، توی خیلی از کاربردهای عملی، آدما دوست دارن مدل‌های هوش مصنوعی نقش‌های خاصی رو بازی کنن، نه اینکه صرفاً همه کاره باشن. در این موارد، قابلیت‌های عمومی یک مدل هوش مصنوعی ممکنه بی فایده باشه و حتی دقت رو هم کم کنه. آیا می‌شه یه راهی پیدا کرد که از مدل‌های بزرگ از پیش آموزش‌دیده، بهتر استفاده کرد، طوری که اطلاعات اضافی رو “فراموش” کنن؟

تحقیقات جدید درباره‌ی فراموشی انتخابی

توی یه مقاله جدید که قراره توی کنفرانس سیستم‌های پردازش اطلاعات عصبی (NeurIPS 2024) ارائه بشه، یه گروه تحقیقاتی به سرپرستی استاد یاری ایری از دانشگاه علوم توکیو (TUS) توی ژاپن، این مسئله رو بررسی کرده‌ن. اونا یه روشی رو به اسم “فراموشی جعبه سیاه” درست کردن، که باهاش می‌شه متن‌هایی رو که به یه مدل طبقه‌بندی بینایی-زبانی جعبه سیاه میدن، کم‌کم بهتر کرد تا مدل بتونه بعضی از کلاس‌هایی رو که می‌تونه شناسایی کنه، به انتخاب خودش “فراموش” کنه.

تصویری از یک آزمایشگاه هوش مصنوعی پیشرفته با پژوهشگران مشغول همکاری بر روی مدل‌های هوش مصنوعی.
پژوهشگرها دارن توانایی‌های جدید مدل‌های هوش مصنوعی رو بررسی می‌کنن.

همکارای این تحقیق، آقای یوسوکه کووانا و آقای یوتا گوتو از TUS، و همچنین دکتر تاکاشی شیباتا از شرکت NEC بودن. دکتر ایری توضیح می‌ده: “توی کاربردهای عملی، طبقه بندی کردن همه‌ی انواع کلاس‌های اشیا، خیلی کم پیش میاد که لازم باشه. مثلاً تو یه سیستم رانندگی خودکار، فقط لازمه کلاس‌های محدودی از اشیا مثل ماشین‌ها، عابرای پیاده و علائم راهنمایی رو بشناسیم. دیگه نیازی نداریم غذا، مبلمان یا گونه‌های حیوونی رو شناسایی کنیم.” اون ادامه می‌ده: “نگه داشتن کلاس‌هایی که نیازی به شناسایی‌شون نیست، ممکنه دقت کلی طبقه بندی رو بیاره پایین و همینطور ایراداتی مثل هدر رفتن منابع محاسباتی و خطر لو رفتن اطلاعات رو هم به همراه داشته باشه.”

هرچند روش‌هایی برای فراموشی انتخابی توی مدل‌های از پیش آموزش‌دیده وجود داره، اما این روش‌ها فرض می‌کنن که کاربر به تنظیمات داخلی و ساختار مدل دسترسی داره. اما معمولاً کاربرها با جعبه‌های سیاه مواجهن؛ یعنی به خود مدل یا بیشتر اطلاعاتش دسترسی ندارن، حالا به دلایل تجاری یا اخلاقی.

راهبرد بهینه‌سازی بدون مشتق توی تحقیقات جدید

بنابراین، محقق‌ها مجبور شدن از یه راهبرد بهینه‌سازی به اسم بدون مشتق استفاده کنن، که نیازی به پیدا کردن شیب‌های مدل نداره. برای این کار، اونا یه روش به اسم CMA-ES رو گسترش دادن و مدل طبقه‌بندی تصویر CLIP رو به عنوان مدل هدف این تحقیق انتخاب کردن. این الگوریتم تکاملی شامل نمونه‌برداری از انواع مختلف پیشنهادها برای ارائه به مدل میشه و نتایج رو از طریق توابع هدف از پیش تعیین شده ارزیابی میکنه و یه توزیع چند متغیره رو بر اساس مقادیر محاسبه شده، به روز میکنه.

تصویری از یک محقق که روش جدید 'فراموشی جعبه سیاه' را به همکاران خود توضیح می‌دهد.
محقق‌ها با دقت روی روش‌های جدید فراموشی انتخابی تمرکز کردن.

با این حال، عملکرد تکنیک‌های بهینه‌سازی بدون مشتق، برای مسائل بزرگ مقیاس، زود افت می‌کنه. با زیاد شدن تعداد کلاس‌هایی که باید فراموش بشن، حوزه‌ی پنهان (latent space) ای که برای بهینه‌سازی پیشنهادهای ورودی استفاده می‌شه، به اندازه‌های غیرقابل کنترل میرسه. برای حل این مشکل، گروه تحقیقاتی یه تکنیک پارامترسازی (parameterization) جدید به اسم اشتراک گذاری حوزه‌ی پنهان (latent sharing) ارائه دادن. این روش شامل تقسیم حوزه‌‌ی پنهان ناشی از پیشنهادها به اجزای کوچکتره، که یا منحصر به فرد برای یک توکن پیشنهاد هستن یا مشترک بین چند توکن در نظر گرفته میشن.

با بهینه‌سازی برای این واحدهای کوچکتر، به‌جای قطعه‌های بزرگ حوزه‌ی پنهان، ابعاد مسئله خیلی کم میشه و حل کردنش راحت‌تر میشه. محقق‌ها روش خودشون رو با استفاده از چند مجموعه‌داده‌ی استاندارد طبقه‌بندی تصویر تأیید کردن و سعی کردن CLIP رو مجبور کنن که 40% از کلاس‌های موجود توی یه مجموعه‌داده خاص رو فراموش کنه. این تحقیق برای اولین بار این هدف رو دنبال کرده که یه مدل زبان-بینایی از پیش آموزش دیده، توی شرایط جعبه سیاه، نتونه کلاس‌های خاصی رو شناسایی کنه و بر اساس معیارهای عملکرد معقول، نتایج خیلی امیدوارکننده‌ای به دست اومد.

تصویری انتزاعی از یک شبکه عصبی که مفهوم بهینه‌سازی بدون مشتق را نشان می‌دهد.
نمودار انتزاعی از بهینه‌سازی بدون مشتق توی شبکه‌های عصبی.

این روش نوین پیامدهای مهمی توی زمینه هوش مصنوعی (AI) و یادگیری ماشینی (ML) داره. این می‌تونه به مدل‌های بزرگ کمک کنه که توی کارهای تخصصی عملکرد بهتری داشته باشن و قابلیت‌های فوق‌العاده‌ی اون‌ها رو گسترش بده. مثلاً، یه کاربرد دیگه می‌تونه جلوگیری از تولید محتوای نامطلوب توسط مدل‌های تولید تصویر باشه؛ طوری که اونا بتونن زمینه‌های بصری خاصی رو فراموش کنن. علاوه بر این، روش پیشنهادی می‌تونه به حل مسائل حریم خصوصی کمک کنه، که این روزا داره بیشتر نگران‌کننده میشه.

دکتر ایری میگه: “اگه از یه ارائه‌دهنده‌ی خدمات بخوان که اطلاعات خاصی رو از یه مدل پاک کنه، این کار می‌تونه با دوباره آموزش دادن مدل از اول و حذف نمونه‌های مشکل‌دار از داده‌های آموزشی انجام بشه. با این حال، دوباره آموزش دادن یه مدل بزرگ، انرژی خیلی زیادی مصرف می‌کنه.” اون ادامه میده: “فراموشی انتخابی، یا به اصطلاح یادگیری ماشینی فراموشی، ممکنه یه راه‌حل کارآمد برای این مشکل ارائه بده.”

به عبارت دیگه، این می‌تونه به توسعه‌ی راه‌حل‌هایی برای حفاظت از چیزی که به عنوان “حق فراموش شدن” شناخته می‌شه، کمک کنه؛ که موضوعی هست که مخصوصاً توی حوزه‌های بهداشت و مالی خیلی حساسه‌.

“`

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *