دشواریهای پیشبینی با اتکا به مدلهای یادگیری ماشینی
ممکنه مدلهای یادگیری ماشینی توی پیشبینیهاشون به مشکل بربخورن، مخصوصاً برای آدمایی که دادههای آموزشیشون به اندازه کافی تو این مدلها نمایندهگی نشده باشن. مثلاً، یه مدلی که بهترین درمان رو برای یه بیماری مزمن پیشبینی میکنه، ممکنه با دادههایی آموزش دیده باشه که بیشتر شامل بیمارهای مرد بوده. در نتیجه، وقتی این مدل توی یه بیمارستان استفاده بشه، احتمال داره پیشبینیهای اشتباهی برای بیمارهای زن داشته باشه.
بهبود نتایج با توازن بخشیدن به دادهها
برای بهتر کردن نتایج، مهندسها میتونن تلاش کنن با حذف نقاط داده، جوری که همه گروهها به یه اندازه نمایندهگی بشن، مجموعه دادههای آموزشی رو متعادل کنن. این متوازنسازی دادهها اگرچه امیدبخش است، ولی معمولاً نیاز به حذف حجم زیادی از داده داره که میتونه عملکرد کلی مدل رو تحت تاثیر قرار بده.
یه تکنیک جدید از محققای MIT
محققای MIT یه روش جدید ساختن که نقاط ویژهای رو تو مجموعه دادههای آموزشی شناسایی و حذف میکنه؛ این نقاط بیشترین اثر منفی رو روی نقصهای مدل توی گروههای اقلیت دارن. با حذف تعداد خیلی کمتری از نقاط داده نسبت به روشهای دیگه، این تکنیک دقت کلی مدل رو حفظ میکنه و عملکردش رو برای گروههایی که نمایندهگی نشدن، بهبود میده. علاوه بر این، این روش میتونه منابع پنهان تعصب رو توی مجموعه دادههای آموزشی که برچسب ندارن، پیدا کنه. دادههای بدون برچسب، تو خیلی از زمینهها بیشتر از دادههای برچسبدار استفاده میشن.

ترکیب با روشهای دیگه
این روش رو میشه با روشهای دیگه هم ترکیب کرد تا انصاف مدلهای یادگیری ماشین توی موقعیتهای حساس بهتر بشه. مثلاً، ممکنه یه روزی کمک کنه که مطمئن بشیم بیمارهایی که به اندازه کافی نمایندهگی نشدن، به خاطر یه مدل هوش مصنوعی که تعصب داره، اشتباه تشخیص داده نشن.
📢 اگر عاشق علم هستید و نمیخواهید هیچ مقالهای را از دست بدهید…
به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر میشوند.
📲 عضویت در کانال تلگرام🎨 ربات رایگان ساخت عکس با هوش مصنوعی
با ربات @ai_photo_bbot، هر متنی را به تصویر تبدیل کنید! 🚀
ربات کاملاً رایگان است و منتظر ایدههای جذاب شماست. 🌟
نظرای کیمیا حمیدی
کیمیا حمیدی، دانشجوی ارشد مهندسی برق و علوم کامپیوتر تو MIT و یکی از نویسندههای اصلی این مقاله، میگه: «خیلی از الگوریتمهایهای دیگه که سعی میکنن این مشکل رو حل کنن، فرض میکنن که همه نقاط داده به یه اندازه مهم هستن. تو این مقاله، ما نشون دادیم که این فرض درست نیست. نقاط خاصی تو مجموعه دادههای ما هست که باعث این تعصب میشن و ما میتونیم اون نقاط داده رو پیدا کنیم و حذف کنیم تا عملکرد بهتری داشته باشیم.»
اون این مقاله رو با نویسندههای اصلی دیگه، ساجی جین (دکترای 24)، کریستیان گئورگیف، دانشجوی دیگه EECS، و اندرو ایلیاس (فوقلیسانس 18، دکترای 23)، که یه محقق از استنفورد هست، و نویسندههای ارشد، مرضیه قاسمی، استادیار EECS و عضو موسسه علوم مهندسی پزشکی و آزمایشگاه سیستمهای اطلاعات و تصمیمگیری، و الکساندر مادری، استاد سیستمهای طراحی کادنس تو MIT، نوشته. این تحقیق قراره توی کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه بشه.
حذف نمونههای نامناسب
اغلب، مدلهای یادگیری ماشینی با استفاده از مجموعه دادههای بزرگ که از منابع مختلف توی اینترنت جمع شدن، آموزش داده میشن. این مجموعه دادهها اونقدر بزرگ هستن که نمیشه با دقت دستی بررسیشون کرد، برای همین ممکنه نمونههای نامناسبی داشته باشن که به عملکرد مدل ضربه میزنن. دانشمندا هم میدونن که بعضی از نقاط داده تاثیر بیشتری روی عملکرد مدل تو بعضی از وظایف دارن.

رویکرد جدید محققهای MIT برای شناسایی و حذف نقاط داده مشکلساز
محققای MIT تو یه روش جدید دو تا ایده رو با هم ترکیب کردن که به شناسایی و حذف نقاط داده مشکلساز کمک میکنه. هدفشون حل یه مشکله به اسم خطای بدترین گروه که زمانی اتفاق میافته که یه مدل تو گروههای اقلیت توی یه مجموعه داده آموزشی عملکرد ضعیفی داره. تکنیک جدیدشون بر اساس کارهای قبلیشون هست که تو اون روش TRAK رو معرفی کردن که مهمترین نمونههای آموزشی رو برای یه خروجی خاص مدل، پیدا میکنه.
توی این تکنیک جدید، اونا پیشبینیهای اشتباهی که مدل درباره گروههای اقلیت انجام داده رو بررسی میکنن و از روش TRAK استفاده میکنن تا نمونههای آموزشی که بیشتر از همه روی اون پیشبینی اشتباه تاثیر داشتن رو شناسایی کنن. ایلیاس توضیح میده: «با جمع کردن این اطلاعات دربارهی پیشبینیهای اشتباه، ما میتونیم بخشهای خاصی از آموزش رو پیدا کنیم که باعث میشن دقت بدترین گروه کم بشه.» بعدش اونا این نمونههای خاص رو حذف میکنن و مدل رو دوباره روی دادههای باقیمونده آموزش میدن.
با توجه به این که داشتن دادههای بیشتر معمولاً به عملکرد بهتر منجر میشه، حذف فقط نمونههایی که باعث شکستهای بدترین گروه میشن، دقت کلی مدل رو حفظ میکنه و همزمان عملکردش رو تو گروههای اقلیت بهتر میکنه.
یه روش در دسترس
توی سه مجموعه دادهی یادگیری ماشین، روش اونا بهتر از خیلی از روشهای دیگه عمل کرد. تو یه مورد، این روش دقت بدترین گروه رو بالا برد در حالی که حدود 20,000 تا نمونه آموزشی کمتر از یه روش متداول برای متعادلسازی دادهها حذف کرد. تکنیک اونا همچنین دقت بالاتری نسبت به روشهایی به دست آورد که نیاز دارن تو عملکردهای داخلی مدل تغییراتی ایجاد بشه. از اونجایی که روش MIT شامل تغییر توی مجموعه دادههاست، برای کاربر آسونتره و میتونه روی انواع مختلف مدلها اعمال بشه. این روش همچنین وقتی تعصب ناشناخته است، قابل استفادهست چون گروهها توی یه مجموعه داده آموزشی برچسبگذاری نشدن.

با پیدا کردن نقاط دادهای که بیشترین تاثیر رو روی ویژگیای که مدل داره یاد میگیره دارن، اونا میتونن متغیرهایی رو که مدل برای پیشبینی استفاده میکنه رو درک کنن. حمیدی میگه: «این یه ابزاره که هر کسی میتونه موقع آموزش یه مدل یادگیری ماشین ازش استفاده کنه. اونا میتونن به این نقاط داده نگاه کنن و ببینن آیا با قابلیتهایی که سعی دارن مدل رو براشون آموزش بدن، همجهت هستن یا نه.»
استفاده از این تکنیک برای پیدا کردن تعصب تو گروههای ناشناخته نیاز به یه حدسیات اولیهای داره که کدوم گروهها باید بررسی بشن. برای همین محققها امیدوارن که این رو تایید کنن و از طریق مطالعات انسانی توی آینده، این رو با دقت بیشتری بررسی کنن. اونا همچنین میخوان عملکرد و قابلیت اطمینان تکنیکشون رو بهتر کنن و مطمئن بشن که این روش برای کاربرایی که ممکنه یه روزی اون رو توی محیطهای واقعی به کار ببرن، در دسترس و آسون باشه.
ایلیاس میگه: «وقتی ابزارهایی دارین که بهتون اجازه میدن با دقت به دادهها نگاه کنین و مشخص کنین کدوم نقاط داده باعث تعصب یا رفتارهای نامطلوب دیگه میشن، این اولین قدم به سمت ساخت مدلهایی هست که عادلانهتر و قابل اطمینانتر میشن.»
این تحقیق تا حدی توسط بنیاد ملی علوم و آژانس پروژههای تحقیقاتی پیشرفته دفاعی ایالات متحده تامین مالی شده.
بیشتر بخوانید
مدیتیشن یک روز پربرکت برای جذب عشق وامنیت و سلامتی
خود هیپنوتیزم درمان زود انزالی در مردان توسط هیپنوتراپیست رضا خدامهری
تقویت سیستم ایمنی بدن با خود هیپنوتیزم
شمس و طغری
خود هیپنوتیزم ماندن در رژیم لاغری و درمان قطعی چاقی کاملا علمی و ایمن
خود هیپنوتیزم تقویت اعتماد به نفس و عزت نفس