مدل‌های-یادگیری-ماشین-داده‌های-آموزشی

چالش‌های مدل‌های یادگیری ماشین در پیش‌بینی

مدل‌های یادگیری ماشین ممکن است در پیش‌بینی برای افرادی که در داده‌های آموزشی آن‌ها به‌خوبی نمایندگی نشده‌اند، **شکست بخورند**. به عنوان مثال، مدلی که بهترین گزینه درمانی را برای فردی با بیماری مزمن پیش‌بینی می‌کند، ممکن است با استفاده از داده‌هایی آموزش ببیند که عمدتاً شامل بیماران مرد است. این مدل ممکن است هنگام استفاده در بیمارستان، پیش‌بینی‌های نادرستی برای بیماران زن ارائه دهد.

بهبود نتایج با تعادل در داده‌های آموزشی

برای بهبود نتایج، مهندسان می‌توانند سعی کنند داده‌های آموزشی را متعادل کنند و با حذف نقاط داده، اطمینان حاصل کنند که همه زیرگروه‌ها به‌طور مساوی نمایندگی شده‌اند. اگرچه **تعادل در داده‌ها** امیدوارکننده است، اما معمولاً نیاز به حذف حجم زیادی از داده‌ها دارد که می‌تواند به عملکرد کلی مدل آسیب برساند.

تکنیک جدید محققان MIT

محققان MIT یک تکنیک جدید توسعه داده‌اند که نقاط خاصی را در داده‌های آموزشی شناسایی و حذف می‌کند که **بیشترین سهم** را در شکست‌های مدل در زیرگروه‌های اقلیت دارند. با حذف نقاط داده بسیار کمتر از روش‌های دیگر، این تکنیک **دقت کلی** مدل را حفظ کرده و عملکرد آن را در مورد گروه‌های کمتر نمایندگی شده بهبود می‌بخشد. علاوه بر این، این تکنیک می‌تواند **منابع پنهان تعصب** را در داده‌های آموزشی که فاقد برچسب هستند شناسایی کند. داده‌های بدون برچسب در بسیاری از کاربردها بسیار بیشتر از داده‌های دارای برچسب وجود دارند.

گروه متنوعی از متخصصان پزشکی در حال بحث و تحلیل داده‌ها در یک اتاق کنفرانس مدرن بیمارستان.
تحلیل داده‌ها در بیمارستانها برای بهبود پیش‌بینی سلامت و تصمیم‌گیری‌های پزشکی.

ترکیب با روش‌های دیگر برای بهبود انصاف

این روش همچنین می‌تواند با سایر رویکردها ترکیب شود تا **انصاف** مدل‌های یادگیری ماشین را در موقعیت‌های حساس بهبود بخشد. به عنوان مثال، ممکن است روزی کمک کند تا اطمینان حاصل شود که بیماران کمتر نمایندگی شده به دلیل یک مدل هوش مصنوعی **تعصب‌دار**، به اشتباه تشخیص داده نشوند.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

نظرات کیمیا حمیدی

کیمیا حمیدی، دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر در MIT و یکی از نویسندگان اصلی این مقاله، می‌گوید: “بسیاری از الگوریتم‌های دیگر که سعی در حل این مسئله دارند فرض می‌کنند که هر نقطه داده به اندازه هر نقطه داده دیگر اهمیت دارد. در این مقاله، ما نشان می‌دهیم که این فرض درست نیست. نقاط خاصی در داده‌های ما وجود دارند که به این تعصب کمک می‌کنند و ما می‌توانیم آن نقاط داده را پیدا کرده و حذف کنیم تا **عملکرد بهتری** داشته باشیم.”

او این مقاله را با نویسندگان همکارش، ساشی جین، دانشجوی دکترا، و کریستیان گئورگیف، دانشجوی کارشناسی ارشد EECS، و اندرو ایلیاس، دانشجوی دکترا و همکار استاین در دانشگاه استنفورد، و نویسندگان ارشد، مرزیه قاسمی، استاد همکار در EECS و عضو مؤسسه مهندسی پزشکی و علوم و آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری، و الکساندر مادری، استاد طراحی سیستم‌های کادنس در MIT، نوشته است. این تحقیق در **کنفرانس سیستم‌های پردازش اطلاعات عصبی** ارائه خواهد شد.

حذف نمونه‌های نامناسب

اغلب، مدل‌های یادگیری ماشین با استفاده از مجموعه‌های داده بزرگ که از منابع مختلف در اینترنت جمع‌آوری شده‌اند، آموزش می‌بینند. این مجموعه‌های داده به قدری بزرگ هستند که نمی‌توان آن‌ها را به‌دقت به‌صورت دستی بررسی کرد، بنابراین ممکن است شامل نمونه‌های نامناسبی باشند که به عملکرد مدل آسیب می‌زنند. دانشمندان همچنین می‌دانند که برخی نقاط داده تأثیر بیشتری بر عملکرد مدل در برخی وظایف پایین‌دستی دارند.

تصویری انتزاعی از یک مدل یادگیری ماشین با نقاط داده و الگوریتم‌ها که به هم پیوند خورده‌اند.
نقش مهم داده‌های متعادل در شکل‌گیری نتایج منصفانه در یادگیری ماشین.

رویکرد جدید محققان MIT برای شناسایی و حذف نقاط داده مشکل‌ساز

محققان MIT دو ایده را ترکیب کرده‌اند تا رویکردی را ایجاد کنند که نقاط داده مشکل‌ساز را شناسایی و حذف کند. هدف آن‌ها حل مسئله‌ای به نام خطای بدترین گروه است که زمانی رخ می‌دهد که یک مدل در زیرگروه‌های اقلیت در یک مجموعه داده آموزشی عملکرد ضعیفی دارد. تکنیک جدید محققان بر اساس کارهای قبلی آن‌ها است که در آن‌ها روشی به نام TRAK معرفی شده است که مهم‌ترین مثال‌های آموزشی برای یک خروجی خاص مدل را شناسایی می‌کند.

در این تکنیک جدید، آن‌ها پیش‌بینی‌های نادرستی که مدل در مورد زیرگروه‌های اقلیت انجام داده است را بررسی می‌کنند و از TRAK برای شناسایی نمونه‌های آموزشی که بیشترین تأثیر را در آن پیش‌بینی نادرست داشته‌اند، استفاده می‌کنند. ایلیاس توضیح می‌دهد: “با تجمیع این اطلاعات در مورد پیش‌بینی‌های بد آزمون به شیوه‌ای مناسب، می‌توانیم بخش‌های خاصی از آموزش را شناسایی کنیم که باعث کاهش دقت گروه بدترین می‌شود.” سپس آن‌ها این نمونه‌های خاص را حذف کرده و مدل را با داده‌های باقی‌مانده دوباره آموزش می‌دهند.

چون داشتن داده‌های بیشتر معمولاً منجر به بهبود عملکرد کلی می‌شود، حذف فقط نمونه‌هایی که باعث شکست‌های گروه بدترین می‌شوند، دقت کلی مدل را حفظ کرده و عملکرد آن را در زیرگروه‌های اقلیت افزایش می‌دهد.

رویکردی قابل دسترس

در سه مجموعه داده یادگیری ماشین، روش آن‌ها عملکرد بهتری نسبت به چندین تکنیک دیگر داشت. در یک مورد، این روش دقت گروه بدترین را افزایش داد در حالی که حدود ۲۰,۰۰۰ نمونه آموزشی کمتر از یک روش متعادل‌سازی داده‌های متداول حذف کرد. تکنیک آن‌ها همچنین دقت بالاتری نسبت به روش‌هایی که نیاز به تغییر در عملکرد داخلی مدل دارند، به دست آورد. از آنجایی که روش MIT شامل تغییر در مجموعه داده است، استفاده از آن برای یک کاربر آسان‌تر بوده و می‌تواند به انواع مختلف مدل‌ها اعمال شود.

نزدیکا یک گروه از محققان MIT در حال بررسی نقاط داده مشکل‌ساز در یک اتاق کار.
همکاری پژوهشگران برای شناسایی نقاط داده مشکل‌ساز در تحقیقات یادگیری ماشین.

این روش همچنین می‌تواند زمانی که تعصب ناشناخته است مورد استفاده قرار گیرد، زیرا زیرگروه‌ها در یک مجموعه داده آموزشی برچسب‌گذاری نشده‌اند. با شناسایی نقاط داده‌ای که بیشترین تأثیر را بر ویژگی‌ای که مدل در حال یادگیری است دارند، می‌توانند متغیرهایی را که برای پیش‌بینی استفاده می‌کند، درک کنند. حمیدیه می‌گوید: “این ابزاری است که هر کسی می‌تواند هنگام آموزش یک مدل یادگیری ماشین از آن استفاده کند. آن‌ها می‌توانند به این نقاط داده نگاه کنند و ببینند آیا با قابلیت‌هایی که سعی در آموزش مدل دارند، هم‌راستا هستند یا نه.”

استفاده از این تکنیک برای شناسایی تعصب زیرگروه‌های ناشناخته نیاز به شهود درباره اینکه کدام گروه‌ها را باید جستجو کرد، دارد. بنابراین محققان امیدوارند این روش را اعتبارسنجی کرده و در مطالعات انسانی آینده به طور کامل بررسی کنند. آن‌ها همچنین می‌خواهند عملکرد و قابلیت اطمینان تکنیک خود را بهبود بخشند و اطمینان حاصل کنند که این روش برای کاربرانی که ممکن است روزی آن را در محیط‌های واقعی به کار ببرند، قابل دسترس و آسان باشد.

ایلیاس می‌گوید: “وقتی ابزارهایی دارید که به شما اجازه می‌دهند به طور انتقادی به داده‌ها نگاه کنید و بفهمید کدام نقاط داده منجر به تعصب یا رفتارهای نامطلوب دیگر می‌شوند، این اولین قدم به سمت ساخت مدل‌هایی است که عادلانه‌تر و قابل اعتمادتر خواهند بود.”

این کار بخشی از آن توسط بنیاد ملی علوم و آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده تأمین مالی شده است.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *