مدل‌های-یادگیری-ماشین-داده‌های-آموزشی

مشکلات پیش‌بینی در مدل‌های یادگیری ماشینی

ممکنه مدل‌های یادگیری ماشینی توی پیش‌بینی برای کسایی که توی داده‌های آموزشی‌شون خوب نشون داده نشدن، دچار **اشکال** بشن. مثلاً، یه مدلی که بهترین درمان رو برای یه نفر با بیماری مزمن پیش‌بینی می‌کنه، ممکنه از داده‌هایی آموزش دیده باشه که بیشترشون شامل بیماران مرد هستن. این مدل وقتی توی بیمارستان استفاده بشه، ممکنه پیش‌بینی‌های اشتباهی برای بیماران زن ارائه بده.

بهبود نتایج با ایجاد تعادل توی داده‌های آموزشی

برای بهتر کردن نتایج، مهندس‌ها میتونن سعی کنن داده‌های آموزشی رو متعادل کنن، یعنی با حذف بعضی از داده‌ها، مطمئن بشن که همه گروه‌ها به یه اندازه نماینده دارن. با وجود اینکه **متعادل کردن داده‌ها** امیدبخش هست، ولی معمولاً نیازه که حجم زیادی از داده‌ها حذف بشه که این خودش ممکنه به عملکرد کلی مدل آسیب بزنه.

تکنیک جدید محققای MIT

محققای MIT یه تکنیک جدید درست کردن که نقاط خاصی رو توی داده‌های آموزشی پیدا می‌کنه و حذفشون می‌کنه، نقاطی که **بیشترین سهم** رو توی شکست مدل توی گروه‌های اقلیت دارن. با حذف تعداد خیلی کمتری از داده‌ها نسبت به روش‌های دیگه، این تکنیک **دقت کلی** مدل رو حفظ می‌کنه و عملکردش رو روی گروه‌هایی که کمتر نماینده دارن، بهتر می‌کنه. علاوه بر این، این تکنیک میتونه **منابع پنهان تعصب** رو توی داده‌های آموزشی‌ای که برچسب ندارن، پیدا کنه. داده‌های بدون برچسب توی خیلی از کاربردها خیلی بیشتر از داده‌های برچسب‌دار هستن.

گروهی از متخصصان پزشکی که توی یه اتاق کنفرانس مدرن بیمارستان دارن درباره اطلاعات بحث و تحلیل می‌کنن.
تحلیل داده‌ها در بیمارستان‌ها برای اینکه پیش‌بینی‌ها و تصمیم‌گیری‌های پزشکی بهتر بشه.

ترکیب با روش‌های دیگه برای بهبود عدالت

این روش هم می‌تونه با روش‌های دیگه ترکیب بشه تا **عدالت** مدل‌های یادگیری ماشینی توی موقعیت‌های حساس رو بهتر کنه. مثلاً، ممکنه یه روزی کمک کنه که مطمئن بشن بیماران کمتر نماینده، بخاطر یه مدل هوش مصنوعی **تعصب‌آمیز**، اشتباه تشخیص داده نشن.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

نظرای کیمیا حمیدی

کیمیا حمیدی، دانشجوی ارشد مهندسی برق و علوم کامپیوتر توی MIT و یکی از نویسنده‌های اصلی این مقاله، میگه: “خیلی از الگوریتم‌های دیگه که سعی می‌کنن این مشکل رو حل کنن، فکر می‌کنن که هر نقطه داده به اندازه بقیه نقاط داده مهمه. توی این مقاله، ما نشون می‌دیم که این فرض درست نیست. نقاط خاصی توی داده‌هامون هستن که به این تعصب کمک می‌کنن و ما می‌تونیم اون نقاط داده رو پیدا کنیم و حذف کنیم تا **عملکرد بهتری** داشته باشیم.”

اون این مقاله رو با همکاراش ساشی جین، دانشجوی دکترا، و کریستیان گئورگیف، دانشجوی ارشد EECS، و اندرو ایلیاس، دانشجوی دکترا و همکار استاین توی دانشگاه استنفورد، و نویسنده‌های ارشد، مرضیه قاسمی، استاد همکار توی EECS و عضو مؤسسه مهندسی پزشکی و علوم و آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری، و الکساندر مادری، استاد طراحی سیستم‌های کادنس توی MIT، نوشته. این تحقیق قراره توی **کنفرانس سیستم‌های پردازش اطلاعات عصبی** ارائه بشه.

حذف نمونه‌های نامناسب

اغلب، مدل‌های یادگیری ماشینی با استفاده از مجموعه‌های بزرگ داده که از منابع مختلف توی اینترنت جمع‌آوری شدن، آموزش داده می‌شن. این مجموعه‌های داده انقدری بزرگ هستن که نمیشه اونا رو با دقت و دستی بررسی کرد، برای همین ممکنه نمونه‌های نامناسبی داشته باشن که به عملکرد مدل آسیب می‌زنن. دانشمند‌ها هم می‌دونن که بعضی از نقاط داده تأثیر بیشتری روی عملکرد مدل توی بعضی از کارهای پایین‌دستی دارن.

یه تصویر انتزاعی از یه مدل یادگیری ماشینی با نقاط داده و الگوریتم‌ها که به هم وصل شدن.
نقش مهم داده‌های متعادل توی شکل دادن به نتایج منصفانه توی یادگیری ماشین.

رویکرد جدید محققای MIT برای پیدا کردن و حذف نقاط داده‌ی مشکل‌ساز

محققای MIT دو تا ایده رو با هم ترکیب کردن تا روشی رو ایجاد کنن که نقاط داده‌ی مشکل‌ساز رو پیدا و حذف کنه. هدفشون حل کردن مشکلی هست به اسم **”خطای بدترین گروه”**، که وقتی اتفاق میفته که یه مدل توی گروه‌های اقلیت توی یه مجموعه‌ی داده‌ی آموزشی، عملکرد ضعیفی داره. تکنیک جدید محققا بر اساس کارهای قبلیشون هست که توش یه روشی رو به اسم **TRAK** معرفی کردن که مهم‌ترین مثال‌های آموزشی رو برای یه خروجی خاص مدل پیدا می‌کنه.

توی این تکنیک جدید، اونا پیش‌بینی‌های غلطی رو که مدل درباره‌ی گروه‌های اقلیت انجام داده، بررسی می‌کنن و از TRAK استفاده می‌کنن برای اینکه نمونه‌های آموزشی‌ای رو پیدا کنن که بیشترین تأثیر رو توی اون پیش‌بینی اشتباه داشتن. ایلیاس توضیح میده: “با جمع‌آوری این اطلاعات درباره‌ی پیش‌بینی‌های بد آزمون به یه روش مناسب، می‌تونیم قسمت‌های خاصی از آموزش رو پیدا کنیم که باعث میشه دقت بدترین گروه بیاد پایین.” بعد، اون‌ها این نمونه‌های خاص رو حذف می‌کنن و مدل رو با داده‌های باقی‌مونده دوباره آموزش میدن.

چون داشتن داده‌های بیشتر، معمولاً منجر به بهتر شدن عملکرد کلی میشه، حذف فقط نمونه‌هایی که باعث شکست گروه‌های بدترین میشن، دقت کلی مدل رو حفظ می‌کنه و عملکردش رو توی گروه‌های اقلیت افزایش میده.

یه روش در دسترس

توی سه تا مجموعه داده‌ی یادگیری ماشینی، روش اونا عملکرد بهتری نسبت به چند تا تکنیک دیگه داشت. توی یه مورد، این روش دقت بدترین گروه رو افزایش داد در حالی که حدود **۲۰,۰۰۰ نمونه‌ی آموزشی کمتر** از یه روش متداول تعادل داده‌ها رو حذف کرد. تکنیکشون هم دقت بیشتری نسبت به روش‌هایی داشت که نیاز به تغییر توی عملکرد داخلی مدل دارن. چون روش MIT شامل تغییر توی مجموعه داده هست، استفاده ازش برای یه کاربر آسون‌تره و می‌تونه روی انواع مختلف مدل‌ها اعمال بشه.

یه گروه از محققای MIT دور هم جمع شدن و دارن نقاط داده‌ی مشکل‌ساز رو توی یه اتاق کار بررسی می‌کنن.
همکاری پژوهشگرا برای پیدا کردن نقاط داده‌ی مشکل‌ساز توی تحقیقات یادگیری ماشین.

این روش هم می‌تونه وقتی که تعصب ناشناخته است استفاده بشه، چون گروه‌های فرعی توی یه مجموعه داده‌ی آموزشی برچسب ندارن. با پیدا کردن نقاط داده‌ای که بیشترین تأثیر رو روی ویژگی‌ای که مدل داره یاد میگیره، می‌تونن متغیرهایی رو که برای پیش‌بینی استفاده می‌کنه، درک کنن. حمیدیه میگه: “این یه ابزاره که هر کسی می‌تونه وقتی یه مدل یادگیری ماشینی رو آموزش میده ازش استفاده کنه. اونا می‌تونن به این نقاط داده نگاه کنن و ببینن که آیا با قابلیت‌هایی که دارن سعی می‌کنن مدل رو براش آموزش بدن، هم‌خوانی داره یا نه.”

استفاده از این تکنیک برای پیدا کردن تعصب توی گروه‌های ناشناخته، به شهود نیاز داره درباره‌ی اینکه باید دنبال کدوم گروه‌ها گشت. برای همین محققا امیدوارن که این روش رو اعتبار بدن و توی مطالعات انسانی آینده، کامل بررسی کنن. اونا هم‌چنین می‌خوان عملکرد و قابلیت اطمینان تکنیکشون رو بهتر کنن و مطمئن بشن که این روش برای کاربرانی که ممکنه یه روز اون رو توی محیط‌های واقعی به کار ببرن، در دسترس و آسون باشه.

ایلیاس میگه: “وقتی ابزارهایی داری که بهت اجازه میدن با دید انتقادی به داده‌ها نگاه کنی و بفهمی که کدوم نقاط داده منجر به تعصب یا رفتارهای نامطلوب دیگه میشن، این اولین قدم برای ساختن مدل‌هایی هست که عادلانه‌تر و قابل اعتمادتر میشن.”

این کار یه قسمتش توسط **بنیاد ملی علوم** و **آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده** تأمین مالی شده.

“`

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *