چالشهای مدلهای یادگیری ماشین در پیشبینیها
مدلهای یادگیری ماشین ممکن است در پیشبینی برای افرادی که در دادههای آموزشی آنها بهخوبی نمایندگی نشدهاند، دچار مشکل شوند. به عنوان مثال، مدلی که بهترین گزینه درمانی را برای فردی با بیماری مزمن پیشبینی میکند، ممکن است با استفاده از دادههایی آموزش ببیند که عمدتاً شامل بیماران مرد است. در نتیجه، این مدل ممکن است هنگام استفاده در یک بیمارستان، پیشبینیهای نادرستی برای بیماران زن ارائه دهد.
بهبود نتایج با متعادلسازی دادهها
برای بهبود نتایج، مهندسان میتوانند سعی کنند با حذف نقاط داده، تا زمانی که همه زیرگروهها بهطور مساوی نمایندگی شوند، مجموعه دادههای آموزشی را متعادل کنند. با اینکه متعادلسازی مجموعه دادهها امیدوارکننده است، اما اغلب نیاز به حذف حجم زیادی از دادهها دارد که میتواند عملکرد کلی مدل را تحت تأثیر قرار دهد.
تکنیک جدید محققان MIT
محققان MIT یک تکنیک جدید توسعه دادهاند که نقاط خاصی را در مجموعه دادههای آموزشی شناسایی و حذف میکند که بیشترین تأثیر منفی را بر شکستهای مدل در زیرگروههای اقلیت دارند. با حذف نقاط داده بسیار کمتر از روشهای دیگر، این تکنیک دقت کلی مدل را حفظ کرده و عملکرد آن را در مورد گروههای نمایندگی نشده بهبود میبخشد. علاوه بر این، این تکنیک میتواند منابع پنهان تعصب را در مجموعه دادههای آموزشی که فاقد برچسب هستند، شناسایی کند. دادههای بدون برچسب در بسیاری از کاربردها رایجتر از دادههای دارای برچسب هستند.
ترکیب با روشهای دیگر
این روش همچنین میتواند با سایر رویکردها ترکیب شود تا انصاف مدلهای یادگیری ماشین را در موقعیتهای حساس بهبود بخشد. به عنوان مثال، ممکن است روزی کمک کند تا اطمینان حاصل شود که بیماران نمایندگی نشده به دلیل یک مدل هوش مصنوعی تعصبآمیز، بهطور نادرست تشخیص داده نشوند.
📢 اگر عاشق علم هستید و نمیخواهید هیچ مقالهای را از دست بدهید…
به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر میشوند.
📲 عضویت در کانال تلگرام🎨 ربات رایگان ساخت عکس با هوش مصنوعی
با ربات @ai_photo_bbot، هر متنی را به تصویر تبدیل کنید! 🚀
ربات کاملاً رایگان است و منتظر ایدههای جذاب شماست. 🌟
نظرات کیمیا حمیدی
کیمیا حمیدی، دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر در MIT و یکی از نویسندگان اصلی این مقاله، میگوید: “بسیاری از الگوریتمهای دیگر که سعی در حل این مشکل دارند، فرض میکنند که هر نقطه داده به اندازه سایر نقاط داده اهمیت دارد. در این مقاله، ما نشان میدهیم که این فرض درست نیست. نقاط خاصی در مجموعه داده ما وجود دارد که به این تعصب کمک میکند و ما میتوانیم آن نقاط داده را پیدا کرده و حذف کنیم تا عملکرد بهتری داشته باشیم.”
او این مقاله را با نویسندگان اصلی دیگر، ساجی جین (PhD ’24) و کریستیان گئورگیف، دانشجوی دیگر EECS، و اندرو ایلیاس (MEng ’18, PhD ’23)، یک فلو از استنفورد، و نویسندگان ارشد، مرزیه قاسمی، استاد یار EECS و عضو مؤسسه علوم مهندسی پزشکی و آزمایشگاه سیستمهای اطلاعات و تصمیمگیری، و الکساندر مادری، استاد سیستمهای طراحی کادنس در MIT، نوشته است. این تحقیق در کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه خواهد شد.
حذف نمونههای نامناسب
اغلب، مدلهای یادگیری ماشین با استفاده از مجموعه دادههای بزرگ که از منابع مختلف در اینترنت جمعآوری شدهاند، آموزش میبینند. این مجموعه دادهها به قدری بزرگ هستند که نمیتوان آنها را بهطور دقیق بهصورت دستی بررسی کرد، بنابراین ممکن است شامل نمونههای نامناسبی باشند که به عملکرد مدل آسیب میزنند. دانشمندان همچنین میدانند که برخی نقاط داده تأثیر بیشتری بر عملکرد مدل در برخی وظایف پاییندستی دارند.
رویکرد جدید محققان MIT برای شناسایی و حذف نقاط داده مشکلساز
محققان MIT در یک رویکرد جدید دو ایده را ترکیب کردهاند که به شناسایی و حذف نقاط داده مشکلساز میپردازد. هدف آنها حل مشکلی به نام خطای بدترین گروه است که زمانی رخ میدهد که یک مدل در زیرگروههای اقلیت در یک مجموعه داده آموزشی عملکرد ضعیفی دارد. تکنیک جدید آنها بر اساس کارهای قبلیشان است که در آنها روش TRAK را معرفی کردند که مهمترین نمونههای آموزشی برای یک خروجی خاص مدل را شناسایی میکند.
در این تکنیک جدید، آنها پیشبینیهای نادرستی که مدل درباره زیرگروههای اقلیت انجام داده را بررسی میکنند و از روش TRAK برای شناسایی نمونههای آموزشی که بیشترین تأثیر را بر آن پیشبینی نادرست داشتهاند، استفاده میکنند. ایلیاس توضیح میدهد: “با تجمیع این اطلاعات در مورد پیشبینیهای نادرست، قادر به شناسایی بخشهای خاصی از آموزش هستیم که منجر به کاهش دقت بدترین گروه میشود.” سپس آنها این نمونههای خاص را حذف کرده و مدل را بر روی دادههای باقیمانده دوباره آموزش میدهند.
با توجه به این که داشتن دادههای بیشتر معمولاً به عملکرد بهتر منجر میشود، حذف تنها نمونههایی که باعث شکستهای بدترین گروه میشوند، دقت کلی مدل را حفظ کرده و در عین حال عملکرد آن را در زیرگروههای اقلیت بهبود میبخشد.
رویکردی قابل دسترس
در سه مجموعه داده یادگیری ماشین، روش آنها از چندین تکنیک دیگر بهتر عمل کرد. در یک مورد، این روش دقت بدترین گروه را افزایش داد در حالی که حدود ۲۰,۰۰۰ نمونه آموزشی کمتر از یک روش متعادلسازی دادههای متداول حذف کرد. تکنیک آنها همچنین دقت بالاتری نسبت به روشهایی که نیاز به تغییر در کارکردهای داخلی مدل دارند، به دست آورد. از آنجا که روش MIT شامل تغییر در مجموعه دادهها است، برای کاربر آسانتر بوده و میتواند به انواع مختلف مدلها اعمال شود. این روش همچنین زمانی که تعصب ناشناخته است، قابل استفاده است زیرا زیرگروهها در یک مجموعه داده آموزشی برچسبگذاری نشدهاند.
با شناسایی نقاط دادهای که بیشترین تأثیر را بر ویژگیای که مدل در حال یادگیری است دارند، آنها میتوانند متغیرهایی را که مدل برای پیشبینی استفاده میکند، درک کنند. حمیدی میگوید: “این ابزاری است که هر کسی میتواند هنگام آموزش یک مدل یادگیری ماشین از آن استفاده کند. آنها میتوانند به این نقاط داده نگاه کنند و ببینند آیا با قابلیتهایی که سعی در آموزش مدل دارند، همراستا هستند یا خیر.”
استفاده از این تکنیک برای شناسایی تعصب زیرگروههای ناشناخته نیاز به شهود درباره اینکه کدام گروهها باید مورد بررسی قرار گیرند، دارد. بنابراین محققان امیدوارند آن را تأیید کرده و از طریق مطالعات انسانی آینده بهطور کاملتر بررسی کنند. آنها همچنین میخواهند عملکرد و قابلیت اطمینان تکنیک خود را بهبود ببخشند و اطمینان حاصل کنند که این روش برای کاربرانی که ممکن است روزی آن را در محیطهای واقعی به کار ببرند، قابل دسترس و آسان باشد.
ایلیاس میگوید: “زمانی که ابزارهایی دارید که به شما اجازه میدهند بهطور انتقادی به دادهها نگاه کنید و مشخص کنید کدام نقاط داده منجر به تعصب یا رفتارهای نامطلوب دیگر میشوند، این اولین قدم به سمت ساخت مدلهایی است که عادلانهتر و قابل اعتمادتر خواهند بود.”
این تحقیق بهطور جزئی توسط بنیاد ملی علوم و آژانس پروژههای تحقیقاتی پیشرفته دفاعی ایالات متحده تأمین مالی شده است.
بیشتر بخوانید
مدیتیشن یک روز پربرکت برای جذب عشق وامنیت و سلامتی
خود هیپنوتیزم درمان زود انزالی در مردان توسط هیپنوتراپیست رضا خدامهری
تقویت سیستم ایمنی بدن با خود هیپنوتیزم
شمس و طغری
خود هیپنوتیزم ماندن در رژیم لاغری و درمان قطعی چاقی کاملا علمی و ایمن
خود هیپنوتیزم تقویت اعتماد به نفس و عزت نفس