هوش مصنوعی مثل آدم یاد می‌گیره! پلتفرم جدیدی که مربی انسانی داره

یک پلتفرم هوش مصنوعی تازه برای یادگیری که شبیه آدمیزادهاست

تازه اول راه رانندگی که بودید، احتمالاً یه مربی کنارتون نشسته بود و فوری برای هر دور زدن، ایستادن، یا تنظیمات کوچیک، یه چیزی می‌گفت. اگر مربیتون یکی از اعضای خانواده‌تون بود، ممکن بود چند بار فرمونو محکم بگیره و داد بزنه “ترمز!” اما رفته‌رفته، این اصلاحات و پیشنهادها به تجربه و حس ششم تبدیل شد و شما رو کرد یه راننده خودمختار و حرفه‌ای. حالا که هوش مصنوعی (AI) پیشرفت کرده و ماشین‌های خودران دارن واقعی میشن، روش‌های آموزشی که برای یاد گرفتنشون استفاده میشه، هنوز کلی با حتی دلواپس‌ترین مربی کنار راننده فاصله داره. هوش مصنوعی به‌جای ظرافت و آموزش لحظه ای، بیشتر از راه داده‌های حجیم و شبیه‌سازی‌های وسیع یاد می‌گیره، انگار نه انگار که قراره ازشون تو یه دنیای واقعی استفاده بشه.

خُب، محققای دانشگاه دوک و آزمایشگاه تحقیقات ارتش، یه پلتفرمی ساختن که کمک می‌کنه هوش مصنوعی، کارهای پیچیده رو بیشتر مثه آدمیزادها انجام بده. اسم این پلتفرم که مخففش میشه GUIDE، تو کنفرانس آینده سیستم‌های پردازش اطلاعات عصبی (NeurIPS 2024) که از 9 تا 15 دسامبر تو ونکوور کانادا برپا میشه، معرفی خواهد شد.

بویوان چن، که استاد مهندسی مکانیک و علوم مواد، مهندسی برق و کامپیوتر و علوم کامپیوتر تو دانشگاه دوکه و سرپرست آزمایشگاه رباتیک عمومی دوک هم هست، توضیح داد: “این که یه هوش مصنوعی بتونه یه سری کارها رو که نیاز دارن با اطلاعات کم و سریع تصمیم‌گیری کنه، یه چالش بزرگه.” اون اضافه کرد: “روش‌های آموزشی موجود، معمولاً به خاطر وابستگی به داده‌های زیاد قبلی محدود میشن و همینطور با کمبود توانایی در تطبیق با روش‌های بازخورد سنتی سر و کله میزنن.” چن گفت: “هدف ما این بود که این کمبود رو با اضافه کردن بازخورد انسانی مستمر و بی‌درنگ جبران کنیم.”

GUIDE به آدم‌ها این امکانو میده که عملکرد هوش مصنوعی رو در لحظه ببینن و بازخورد دقیق و پیوسته بدن. انگار یه مربی رانندگی حرفه‌ای، فقط فریاد نمی‌زنه “چپ” یا “راست”، بلکه راهنمایی‌های دقیقی میکنه که به بهبود تدریجی‌ و درک عمیق‌تر کمک کنه.

یه مربی رانندگی که به یه راننده تازه‌کار که داره یاد میگیره کمک میکنه و بهش بازخورد میده. — یاد گرفتن رانندگی با کمک مربی، یه تصویر از تعامل انسان و آموزش عملی.

اولین آزمایش‌های GUIDE

تو اولین مطالعاتشون، GUIDE به یه هوش مصنوعی کمک کرد که بهترین روش برای بازی قایم‌موشک رو یاد بگیره. این بازی شامل دوتا بازیکن بود که شکلشون سوسک بود، یکی قرمز و یکی سبز. هر دوتاشون توسط کامپیوتر کنترل میشدن، اما فقط بازیکن قرمز بود که تو کنترل‌کننده‌ی هوش مصنوعی‌اش پیشرفت می‌کرد. بازی تو یه صفحه مربعی با یه مانع C شکل تو وسطش انجام می‌شد. اکثر صفحه سیاه بود و تا زمانی که جستجوگر قرمز وارد منطقه‌های جدید نمیشد، چیزی معلوم نبود. همین که بازیکن هوش مصنوعی قرمز دنبال اون یکی بود، یه مربی انسانی درباره استراتژی جستجوی اون بازخورد میداد.

در حالی که روش‌های قبلی واسه این جور استراتژی آموزشی، فقط اجازه‌ی سه نوع ورودی انسانی رو میدادن – خوب، بد یا خنثی – GUIDE به آدم‌ها این امکانو میده که با قرار دادن نشانگر ماوس رو یه مقیاس درجه‌بندی شده، بازخورد فوری ارائه بدن. این آزمایش شامل 50 شرکت‌کننده بزرگسال، بدون هیچ آموزش یا دانش تخصصی قبلی بود که به طور قابل توجهی بزرگ‌ترین مطالعه از این نوع محسوب میشه.

تازه‌ترین تحقیقات درباره یادگیری تقویتی هوش مصنوعی

محققان متوجه شدن که فقط 10 دقیقه بازخورد انسانی باعث پیشرفت چشمگیر تو عملکرد هوش مصنوعی شد. سیستم GUIDE تونست 30 درصد افزایش در میزان موفقیت نسبت به روش‌های پیشرفته‌ی یادگیری تقویتی انسانی که وجود داره، به دست بیاره. لینگیو ژانگ، نویسنده‌ی اصلی و دانش‌آموخته‌ی سال اول دکترا در آزمایشگاه چن، گفت: “این شواهد کمی و کیفی خوب، تأثیر روش ما رو نشون میده.” اون اضافه کرد: “این تحقیق نشون میده که چه‌جوری GUIDE میتونه قابلیت تطبیق رو افزایش بده و به هوش مصنوعی کمک کنه تا به طور مستقل تو محیط‌های پیچیده و پویا حرکت کنه و واکنش نشون بده.”

پلتفرم یادگیری هوش مصنوعی GUIDE که رابطه بین انسان و AI رو نشون میده. — پلتفرم جدید GUIDE که کمک می‌کنه هوش مصنوعی مثه آدم‌ها یاد بگیره.

محققان همین‌طور نشون دادن که مربیای انسانی، فقط برای یه مدت کوتاه واقعاً لازم هستن. وقتی که شرکت‌کننده‌ها داشتن بازخورد میدادند، گروه تحقیق یه هوش مصنوعی مربّی انسانی شبیه‌سازی‌شده ساختن که بر اساس اطلاعات و دیدگاه‌های اونها تو شرایط مشخص و زمان‌های تعیین‌شده عمل کنه. این کار به هوش مصنوعی اجازه میده که مدت‌ها بعد از این‌که آدم‌ها از کمک کردن به یادگیری خسته شدن، به آموزشی ادامه بده.

آموزش یه “مربی” هوش مصنوعی که به اندازه‌ی اون هوش مصنوعی‌ای که داره آموزش میده خوب نباشه، ممکنه بی‌معنی به نظر بیاد، اما چن توضیح میده که این در واقع یه کار انسانیه. اون گفت: “در حالی که مسلط شدن به یه کار خاص واسه یه نفر خیلی سخته، قضاوت کردن این‌که آیا داره بهتر میشه یا نه، کارِ سختی نیست.” چن اضافه کرد: “خیلی از مربیا میتونن یه بازیکن رو به مقام قهرمانی برسونن، بدون این‌که خودشون قهرمان باشن.”

تفاوت‌های شخصی تو مربیای انسانی

یه جنبه‌ی جالب دیگه برای GUIDE، بررسی تفاوت‌های فردی بین مربیای انسانیه. آزمون‌های شناختی که به همه‌ی 50 شرکت‌کننده داده شد، نشون داد که بعضی از توانایی‌ها، مثل استدلال فضایی و تصمیم‌گیری سریع، تأثیر مهمی تو این دارن که یه نفر چه‌قدر خوب می‌تونه به یه هوش مصنوعی آموزش بده. این نتایج، امکانات جالبی رو نشون میده، از جمله تقویت این توانایی‌ها از راه آموزش هدفمند و کشف عوامل دیگه‌ای که شاید به هدایت موفق هوش مصنوعی کمک کنن.

دو تا کاراکتر سوسک دارن بازی قایم‌موشک میکنن با یه زمینه پر از جزییات و رنگ. — بازی قایم‌موشک که هوش مصنوعی توش با راهنمایی انسانی یاد میگیره.

این سؤالا پتانسیل هیجان‌انگیزی رو برای گسترش چارچوب‌های آموزشی انعطاف‌پذیرتر نشون میده که فقط به آموزش هوش مصنوعی توجه ندارن، بلکه رو تقویت توانایی‌های انسانی واسه تشکیل تیم‌های آینده‌ی انسان-هوش مصنوعی هم تأکید دارن. با پرداختن به این سؤالا، محققان امیدوارن که یه آینده بسازن که توش هوش مصنوعی نه‌تنها به شکلی کارآمدتر، بلکه به طور غریزی‌تری یاد بگیره و فاصله بین حس ششم انسانی و یادگیری ماشین رو پر کنه و به هوش مصنوعی اجازه بده تو محیط‌هایی با اطلاعات محدود به طور خودکار عمل کنه.

چن گفت: “با افزایش استفاده از فناوری‌های هوش مصنوعی، طراحی سیستم‌هایی که برای کاربرانِ روزمره غریزی و قابل دسترس باشن، خیلی مهمه.” اون اضافه کرد: “GUIDE راه رو برای هوش مصنوعی باهوش‌تر و پاسخگوتر هموار میکنه که بتونه تو محیط‌های پویا و غیرقابل‌پیش‌بینی به طور خودکار عمل کنه.”

تحقیقات آینده

گروه تحقیق، آینده رو با استفاده از نشانه‌های ارتباطی متنوع، شامل زبان، حالت‌های چهره، حرکات دست و موارد دیگه، تصور میکنه تا یه چارچوب جامع‌تر و غریزی‌تر برای یادگیری هوش مصنوعی از تعاملات انسانی بسازه. این کار بخشی از مأموریت آزمایشگاه برای ساخت سیستم‌های هوشمند سطح بعدیه که با آدما همکاری میکنن تا کارهایی رو انجام بدن که نه هوش مصنوعی و نه آدم به تنهایی نمیتونن حلش کنن. این کار تا حدی توسط آزمایشگاه تحقیقات ارتش (W911NF2320182, W911NF2220113) حمایت میشه.