مدل‌های-یادگیری-ماشین

چالش‌های مدل‌های یادگیری ماشین در پیش‌بینی‌ها

مدل‌های یادگیری ماشین ممکن است در پیش‌بینی برای افرادی که در داده‌های آموزشی آن‌ها به‌خوبی نمایندگی نشده‌اند، دچار مشکل شوند. به عنوان مثال، مدلی که بهترین گزینه درمانی را برای فردی با بیماری مزمن پیش‌بینی می‌کند، ممکن است با استفاده از داده‌هایی آموزش ببیند که عمدتاً شامل بیماران مرد است. در نتیجه، این مدل ممکن است هنگام استفاده در یک بیمارستان، پیش‌بینی‌های نادرستی برای بیماران زن ارائه دهد.

بهبود نتایج با متعادل‌سازی داده‌ها

برای بهبود نتایج، مهندسان می‌توانند سعی کنند با حذف نقاط داده، تا زمانی که همه زیرگروه‌ها به‌طور مساوی نمایندگی شوند، مجموعه داده‌های آموزشی را متعادل کنند. با اینکه متعادل‌سازی مجموعه داده‌ها امیدوارکننده است، اما اغلب نیاز به حذف حجم زیادی از داده‌ها دارد که می‌تواند عملکرد کلی مدل را تحت تأثیر قرار دهد.

تکنیک جدید محققان MIT

محققان MIT یک تکنیک جدید توسعه داده‌اند که نقاط خاصی را در مجموعه داده‌های آموزشی شناسایی و حذف می‌کند که بیشترین تأثیر منفی را بر شکست‌های مدل در زیرگروه‌های اقلیت دارند. با حذف نقاط داده بسیار کمتر از روش‌های دیگر، این تکنیک دقت کلی مدل را حفظ کرده و عملکرد آن را در مورد گروه‌های نمایندگی نشده بهبود می‌بخشد. علاوه بر این، این تکنیک می‌تواند منابع پنهان تعصب را در مجموعه داده‌های آموزشی که فاقد برچسب هستند، شناسایی کند. داده‌های بدون برچسب در بسیاری از کاربردها رایج‌تر از داده‌های دارای برچسب هستند.

گروه متنوعی از متخصصان بهداشت و درمان در حال بحث درباره مدل‌های یادگیری ماشین در بیمارستان.
تلاش‌های گروه‌های درمانی برای بهبود دقت پیش‌بینی‌ها با استفاده از یادگیری ماشین.

ترکیب با روش‌های دیگر

این روش همچنین می‌تواند با سایر رویکردها ترکیب شود تا انصاف مدل‌های یادگیری ماشین را در موقعیت‌های حساس بهبود بخشد. به عنوان مثال، ممکن است روزی کمک کند تا اطمینان حاصل شود که بیماران نمایندگی نشده به دلیل یک مدل هوش مصنوعی تعصب‌آمیز، به‌طور نادرست تشخیص داده نشوند.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

نظرات کیمیا حمیدی

کیمیا حمیدی، دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر در MIT و یکی از نویسندگان اصلی این مقاله، می‌گوید: “بسیاری از الگوریتم‌های دیگر که سعی در حل این مشکل دارند، فرض می‌کنند که هر نقطه داده به اندازه سایر نقاط داده اهمیت دارد. در این مقاله، ما نشان می‌دهیم که این فرض درست نیست. نقاط خاصی در مجموعه داده ما وجود دارد که به این تعصب کمک می‌کند و ما می‌توانیم آن نقاط داده را پیدا کرده و حذف کنیم تا عملکرد بهتری داشته باشیم.”

او این مقاله را با نویسندگان اصلی دیگر، ساجی جین (PhD ’24) و کریستیان گئورگیف، دانشجوی دیگر EECS، و اندرو ایلیاس (MEng ’18, PhD ’23)، یک فلو از استنفورد، و نویسندگان ارشد، مرزیه قاسمی، استاد یار EECS و عضو مؤسسه علوم مهندسی پزشکی و آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری، و الکساندر مادری، استاد سیستم‌های طراحی کادنس در MIT، نوشته است. این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه خواهد شد.

حذف نمونه‌های نامناسب

اغلب، مدل‌های یادگیری ماشین با استفاده از مجموعه داده‌های بزرگ که از منابع مختلف در اینترنت جمع‌آوری شده‌اند، آموزش می‌بینند. این مجموعه داده‌ها به قدری بزرگ هستند که نمی‌توان آن‌ها را به‌طور دقیق به‌صورت دستی بررسی کرد، بنابراین ممکن است شامل نمونه‌های نامناسبی باشند که به عملکرد مدل آسیب می‌زنند. دانشمندان همچنین می‌دانند که برخی نقاط داده تأثیر بیشتری بر عملکرد مدل در برخی وظایف پایین‌دستی دارند.

یک دانشمند داده در حال تحلیل مجموعه داده‌ها در محیط اداری مدرن.
یک دانشمند داده در حال بهینه‌سازی مجموعه داده‌ها برای عملکرد بهتر مدل‌ها.

رویکرد جدید محققان MIT برای شناسایی و حذف نقاط داده مشکل‌ساز

محققان MIT در یک رویکرد جدید دو ایده را ترکیب کرده‌اند که به شناسایی و حذف نقاط داده مشکل‌ساز می‌پردازد. هدف آن‌ها حل مشکلی به نام خطای بدترین گروه است که زمانی رخ می‌دهد که یک مدل در زیرگروه‌های اقلیت در یک مجموعه داده آموزشی عملکرد ضعیفی دارد. تکنیک جدید آن‌ها بر اساس کارهای قبلی‌شان است که در آن‌ها روش TRAK را معرفی کردند که مهم‌ترین نمونه‌های آموزشی برای یک خروجی خاص مدل را شناسایی می‌کند.

در این تکنیک جدید، آن‌ها پیش‌بینی‌های نادرستی که مدل درباره زیرگروه‌های اقلیت انجام داده را بررسی می‌کنند و از روش TRAK برای شناسایی نمونه‌های آموزشی که بیشترین تأثیر را بر آن پیش‌بینی نادرست داشته‌اند، استفاده می‌کنند. ایلیاس توضیح می‌دهد: “با تجمیع این اطلاعات در مورد پیش‌بینی‌های نادرست، قادر به شناسایی بخش‌های خاصی از آموزش هستیم که منجر به کاهش دقت بدترین گروه می‌شود.” سپس آن‌ها این نمونه‌های خاص را حذف کرده و مدل را بر روی داده‌های باقی‌مانده دوباره آموزش می‌دهند.

با توجه به این که داشتن داده‌های بیشتر معمولاً به عملکرد بهتر منجر می‌شود، حذف تنها نمونه‌هایی که باعث شکست‌های بدترین گروه می‌شوند، دقت کلی مدل را حفظ کرده و در عین حال عملکرد آن را در زیرگروه‌های اقلیت بهبود می‌بخشد.

رویکردی قابل دسترس

در سه مجموعه داده یادگیری ماشین، روش آن‌ها از چندین تکنیک دیگر بهتر عمل کرد. در یک مورد، این روش دقت بدترین گروه را افزایش داد در حالی که حدود ۲۰,۰۰۰ نمونه آموزشی کمتر از یک روش متعادل‌سازی داده‌های متداول حذف کرد. تکنیک آن‌ها همچنین دقت بالاتری نسبت به روش‌هایی که نیاز به تغییر در کارکردهای داخلی مدل دارند، به دست آورد. از آنجا که روش MIT شامل تغییر در مجموعه داده‌ها است، برای کاربر آسان‌تر بوده و می‌تواند به انواع مختلف مدل‌ها اعمال شود. این روش همچنین زمانی که تعصب ناشناخته است، قابل استفاده است زیرا زیرگروه‌ها در یک مجموعه داده آموزشی برچسب‌گذاری نشده‌اند.

محققان MIT در آزمایشگاه در حال بحث درباره روش جدید خود برای تحلیل داده‌ها.
لحظه‌ای از همکاری محققان MIT بر روی یک روش جدید برای حذف داده‌های مشکل‌ساز.

با شناسایی نقاط داده‌ای که بیشترین تأثیر را بر ویژگی‌ای که مدل در حال یادگیری است دارند، آن‌ها می‌توانند متغیرهایی را که مدل برای پیش‌بینی استفاده می‌کند، درک کنند. حمیدی می‌گوید: “این ابزاری است که هر کسی می‌تواند هنگام آموزش یک مدل یادگیری ماشین از آن استفاده کند. آن‌ها می‌توانند به این نقاط داده نگاه کنند و ببینند آیا با قابلیت‌هایی که سعی در آموزش مدل دارند، هم‌راستا هستند یا خیر.”

استفاده از این تکنیک برای شناسایی تعصب زیرگروه‌های ناشناخته نیاز به شهود درباره اینکه کدام گروه‌ها باید مورد بررسی قرار گیرند، دارد. بنابراین محققان امیدوارند آن را تأیید کرده و از طریق مطالعات انسانی آینده به‌طور کامل‌تر بررسی کنند. آن‌ها همچنین می‌خواهند عملکرد و قابلیت اطمینان تکنیک خود را بهبود ببخشند و اطمینان حاصل کنند که این روش برای کاربرانی که ممکن است روزی آن را در محیط‌های واقعی به کار ببرند، قابل دسترس و آسان باشد.

ایلیاس می‌گوید: “زمانی که ابزارهایی دارید که به شما اجازه می‌دهند به‌طور انتقادی به داده‌ها نگاه کنید و مشخص کنید کدام نقاط داده منجر به تعصب یا رفتارهای نامطلوب دیگر می‌شوند، این اولین قدم به سمت ساخت مدل‌هایی است که عادلانه‌تر و قابل اعتمادتر خواهند بود.”

این تحقیق به‌طور جزئی توسط بنیاد ملی علوم و آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی ایالات متحده تأمین مالی شده است.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *