مدل‌های-یادگیری-ماشین

دشواری‌های پیش‌بینی با اتکا به مدل‌های یادگیری ماشینی

ممکنه مدل‌های یادگیری ماشینی توی پیش‌بینی‌هاشون به مشکل بربخورن، مخصوصاً برای آدمایی که داده‌های آموزشیشون به اندازه کافی تو این مدل‌ها نماینده‌گی نشده باشن. مثلاً، یه مدلی که بهترین درمان رو برای یه بیماری مزمن پیش‌بینی می‌کنه، ممکنه با داده‌هایی آموزش دیده باشه که بیشتر شامل بیمارهای مرد بوده. در نتیجه، وقتی این مدل توی یه بیمارستان استفاده بشه، احتمال داره پیش‌بینی‌های اشتباهی برای بیمارهای زن داشته باشه.

بهبود نتایج با توازن بخشیدن به داده‌ها

برای بهتر کردن نتایج، مهندس‌ها می‌تونن تلاش کنن با حذف نقاط داده، جوری که همه گروه‌ها به یه اندازه نماینده‌گی بشن، مجموعه داده‌های آموزشی رو متعادل کنن. این متوازن‌سازی داده‌ها اگرچه امیدبخش است، ولی معمولاً نیاز به حذف حجم زیادی از داده داره که می‌تونه عملکرد کلی مدل رو تحت تاثیر قرار بده.

یه تکنیک جدید از محققای MIT

محققای MIT یه روش جدید ساختن که نقاط ویژه‌ای رو تو مجموعه داده‌های آموزشی شناسایی و حذف می‌کنه؛ این نقاط بیشترین اثر منفی رو روی نقص‌های مدل توی گروه‌های اقلیت دارن. با حذف تعداد خیلی کمتری از نقاط داده نسبت به روش‌های دیگه، این تکنیک دقت کلی مدل رو حفظ می‌کنه و عملکردش رو برای گروه‌هایی که نماینده‌گی نشدن، بهبود می‌ده. علاوه بر این، این روش می‌تونه منابع پنهان تعصب رو توی مجموعه داده‌های آموزشی که برچسب ندارن، پیدا کنه. داده‌های بدون برچسب، تو خیلی از زمینه‌ها بیشتر از داده‌های برچسب‌دار استفاده می‌شن.

گروهی از متخصص‌های بهداشت و درمان دارن درباره‌ی مدل‌های یادگیری ماشین تو بیمارستان بحث می‌کنن.
تلاش تیم‌های درمانی برای بالا بردن دقت پیش‌بینی‌ها با استفاده از یادگیری ماشین.

ترکیب با روش‌های دیگه

این روش رو می‌شه با روش‌های دیگه هم ترکیب کرد تا انصاف مدل‌های یادگیری ماشین توی موقعیت‌های حساس بهتر بشه. مثلاً، ممکنه یه روزی کمک کنه که مطمئن بشیم بیمارهایی که به اندازه کافی نماینده‌گی نشدن، به خاطر یه مدل هوش مصنوعی که تعصب داره، اشتباه تشخیص داده نشن.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

نظرای کیمیا حمیدی

کیمیا حمیدی، دانشجوی ارشد مهندسی برق و علوم کامپیوتر تو MIT و یکی از نویسنده‌های اصلی این مقاله، می‌گه: «خیلی از الگوریتم‌های‌های دیگه که سعی می‌کنن این مشکل رو حل کنن، فرض می‌کنن که همه نقاط داده به یه اندازه مهم هستن. تو این مقاله، ما نشون دادیم که این فرض درست نیست. نقاط خاصی تو مجموعه داده‌های ما هست که باعث این تعصب می‌شن و ما می‌تونیم اون نقاط داده رو پیدا کنیم و حذف کنیم تا عملکرد بهتری داشته باشیم.»

اون این مقاله رو با نویسنده‌های اصلی دیگه، ساجی جین (دکترای 24)، کریستیان گئورگیف، دانشجوی دیگه EECS، و اندرو ایلیاس (فوق‌لیسانس 18، دکترای 23)، که یه محقق از استنفورد هست، و نویسنده‌های ارشد، مرضیه قاسمی، استادیار EECS و عضو موسسه علوم مهندسی پزشکی و آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری، و الکساندر مادری، استاد سیستم‌های طراحی کادنس تو MIT، نوشته. این تحقیق قراره توی کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه بشه.

حذف نمونه‌های نامناسب

اغلب، مدل‌های یادگیری ماشینی با استفاده از مجموعه داده‌های بزرگ که از منابع مختلف توی اینترنت جمع شدن، آموزش داده می‌شن. این مجموعه داده‌ها اونقدر بزرگ هستن که نمی‌شه با دقت دستی بررسی‌شون کرد، برای همین ممکنه نمونه‌های نامناسبی داشته باشن که به عملکرد مدل ضربه می‌زنن. دانشمندا هم می‌دونن که بعضی از نقاط داده تاثیر بیشتری روی عملکرد مدل تو بعضی از وظایف دارن.

یه دانشمند داده داره مجموعه داده‌ها رو تو یه محیط اداری مدرن بررسی می‌کنه.
یه دانشمند داده داره مجموعه داده‌ها رو بهینه می‌کنه تا مدل‌ها بهتر کار کنن.

رویکرد جدید محقق‌های MIT برای شناسایی و حذف نقاط داده مشکل‌ساز

محققای MIT تو یه روش جدید دو تا ایده رو با هم ترکیب کردن که به شناسایی و حذف نقاط داده مشکل‌ساز کمک می‌کنه. هدفشون حل یه مشکله به اسم خطای بدترین گروه که زمانی اتفاق می‌افته که یه مدل تو گروه‌های اقلیت توی یه مجموعه داده آموزشی عملکرد ضعیفی داره. تکنیک جدیدشون بر اساس کارهای قبلی‌شون هست که تو اون روش TRAK رو معرفی کردن که مهم‌ترین نمونه‌های آموزشی رو برای یه خروجی خاص مدل، پیدا می‌کنه.

توی این تکنیک جدید، اونا پیش‌بینی‌های اشتباهی که مدل درباره گروه‌های اقلیت انجام داده رو بررسی می‌کنن و از روش TRAK استفاده می‌کنن تا نمونه‌های آموزشی که بیشتر از همه روی اون پیش‌بینی اشتباه تاثیر داشتن رو شناسایی کنن. ایلیاس توضیح می‌ده: «با جمع کردن این اطلاعات درباره‌ی پیش‌بینی‌های اشتباه، ما می‌تونیم بخش‌های خاصی از آموزش رو پیدا کنیم که باعث می‌شن دقت بدترین گروه کم بشه.» بعدش اونا این نمونه‌های خاص رو حذف می‌کنن و مدل رو دوباره روی داده‌های باقی‌مونده آموزش می‌دن.

با توجه به این که داشتن داده‌های بیشتر معمولاً به عملکرد بهتر منجر می‌شه، حذف فقط نمونه‌هایی که باعث شکست‌های بدترین گروه می‌شن، دقت کلی مدل رو حفظ می‌کنه و همزمان عملکردش رو تو گروه‌های اقلیت بهتر می‌کنه.

یه روش در دسترس

توی سه مجموعه داده‌ی یادگیری ماشین، روش اونا بهتر از خیلی از روش‌های دیگه عمل کرد. تو یه مورد، این روش دقت بدترین گروه رو بالا برد در حالی که حدود 20,000 تا نمونه آموزشی کمتر از یه روش متداول برای متعادل‌سازی داده‌ها حذف کرد. تکنیک اونا همچنین دقت بالاتری نسبت به روش‌هایی به دست آورد که نیاز دارن تو عملکردهای داخلی مدل تغییراتی ایجاد بشه. از اونجایی که روش MIT شامل تغییر توی مجموعه داده‌هاست، برای کاربر آسون‌تره و می‌تونه روی انواع مختلف مدل‌ها اعمال بشه. این روش همچنین وقتی تعصب ناشناخته است، قابل استفاده‌ست چون گروه‌ها توی یه مجموعه داده آموزشی برچسب‌گذاری نشدن.

محققای MIT تو آزمایشگاه دارن درباره‌ی روش جدیدشون برای تحلیل داده‌ها بحث می‌کنن.
لحظه‌ای از همکاری محققای MIT روی یه روش جدید برای حذف داده‌های مشکل‌ساز.

با پیدا کردن نقاط داده‌ای که بیشترین تاثیر رو روی ویژگی‌ای که مدل داره یاد می‌گیره دارن، اونا می‌تونن متغیرهایی رو که مدل برای پیش‌بینی استفاده می‌کنه رو درک کنن. حمیدی می‌گه: «این یه ابزاره که هر کسی می‌تونه موقع آموزش یه مدل یادگیری ماشین ازش استفاده کنه. اونا می‌تونن به این نقاط داده نگاه کنن و ببینن آیا با قابلیت‌هایی که سعی دارن مدل رو براشون آموزش بدن، هم‌جهت هستن یا نه.»

استفاده از این تکنیک برای پیدا کردن تعصب تو گروه‌های ناشناخته نیاز به یه حدسیات اولیه‌ای داره که کدوم گروه‌ها باید بررسی بشن. برای همین محقق‌ها امیدوارن که این رو تایید کنن و از طریق مطالعات انسانی توی آینده، این رو با دقت بیشتری بررسی کنن. اونا همچنین می‌خوان عملکرد و قابلیت اطمینان تکنیک‌شون رو بهتر کنن و مطمئن بشن که این روش برای کاربرایی که ممکنه یه روزی اون رو توی محیط‌های واقعی به کار ببرن، در دسترس و آسون باشه.

ایلیاس می‌گه: «وقتی ابزارهایی دارین که بهتون اجازه می‌دن با دقت به داده‌ها نگاه کنین و مشخص کنین کدوم نقاط داده باعث تعصب یا رفتارهای نامطلوب دیگه می‌شن، این اولین قدم به سمت ساخت مدل‌هایی هست که عادلانه‌تر و قابل اطمینان‌تر می‌شن.»

این تحقیق تا حدی توسط بنیاد ملی علوم و آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده تامین مالی شده.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *