چالشهای مدلهای یادگیری ماشین در پیشبینی
مدلهای یادگیری ماشین ممکن است در پیشبینی برای افرادی که در دادههای آموزشی آنها بهخوبی نمایندگی نشدهاند، **شکست بخورند**. به عنوان مثال، مدلی که بهترین گزینه درمانی را برای فردی با بیماری مزمن پیشبینی میکند، ممکن است با استفاده از دادههایی آموزش ببیند که عمدتاً شامل بیماران مرد است. این مدل ممکن است هنگام استفاده در بیمارستان، پیشبینیهای نادرستی برای بیماران زن ارائه دهد.
بهبود نتایج با تعادل در دادههای آموزشی
برای بهبود نتایج، مهندسان میتوانند سعی کنند دادههای آموزشی را متعادل کنند و با حذف نقاط داده، اطمینان حاصل کنند که همه زیرگروهها بهطور مساوی نمایندگی شدهاند. اگرچه **تعادل در دادهها** امیدوارکننده است، اما معمولاً نیاز به حذف حجم زیادی از دادهها دارد که میتواند به عملکرد کلی مدل آسیب برساند.
تکنیک جدید محققان MIT
محققان MIT یک تکنیک جدید توسعه دادهاند که نقاط خاصی را در دادههای آموزشی شناسایی و حذف میکند که **بیشترین سهم** را در شکستهای مدل در زیرگروههای اقلیت دارند. با حذف نقاط داده بسیار کمتر از روشهای دیگر، این تکنیک **دقت کلی** مدل را حفظ کرده و عملکرد آن را در مورد گروههای کمتر نمایندگی شده بهبود میبخشد. علاوه بر این، این تکنیک میتواند **منابع پنهان تعصب** را در دادههای آموزشی که فاقد برچسب هستند شناسایی کند. دادههای بدون برچسب در بسیاری از کاربردها بسیار بیشتر از دادههای دارای برچسب وجود دارند.
ترکیب با روشهای دیگر برای بهبود انصاف
این روش همچنین میتواند با سایر رویکردها ترکیب شود تا **انصاف** مدلهای یادگیری ماشین را در موقعیتهای حساس بهبود بخشد. به عنوان مثال، ممکن است روزی کمک کند تا اطمینان حاصل شود که بیماران کمتر نمایندگی شده به دلیل یک مدل هوش مصنوعی **تعصبدار**، به اشتباه تشخیص داده نشوند.
📢 اگر عاشق علم هستید و نمیخواهید هیچ مقالهای را از دست بدهید…
به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر میشوند.
📲 عضویت در کانال تلگرام🎨 ربات رایگان ساخت عکس با هوش مصنوعی
با ربات @ai_photo_bbot، هر متنی را به تصویر تبدیل کنید! 🚀
ربات کاملاً رایگان است و منتظر ایدههای جذاب شماست. 🌟
نظرات کیمیا حمیدی
کیمیا حمیدی، دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر در MIT و یکی از نویسندگان اصلی این مقاله، میگوید: “بسیاری از الگوریتمهای دیگر که سعی در حل این مسئله دارند فرض میکنند که هر نقطه داده به اندازه هر نقطه داده دیگر اهمیت دارد. در این مقاله، ما نشان میدهیم که این فرض درست نیست. نقاط خاصی در دادههای ما وجود دارند که به این تعصب کمک میکنند و ما میتوانیم آن نقاط داده را پیدا کرده و حذف کنیم تا **عملکرد بهتری** داشته باشیم.”
او این مقاله را با نویسندگان همکارش، ساشی جین، دانشجوی دکترا، و کریستیان گئورگیف، دانشجوی کارشناسی ارشد EECS، و اندرو ایلیاس، دانشجوی دکترا و همکار استاین در دانشگاه استنفورد، و نویسندگان ارشد، مرزیه قاسمی، استاد همکار در EECS و عضو مؤسسه مهندسی پزشکی و علوم و آزمایشگاه سیستمهای اطلاعات و تصمیمگیری، و الکساندر مادری، استاد طراحی سیستمهای کادنس در MIT، نوشته است. این تحقیق در **کنفرانس سیستمهای پردازش اطلاعات عصبی** ارائه خواهد شد.
حذف نمونههای نامناسب
اغلب، مدلهای یادگیری ماشین با استفاده از مجموعههای داده بزرگ که از منابع مختلف در اینترنت جمعآوری شدهاند، آموزش میبینند. این مجموعههای داده به قدری بزرگ هستند که نمیتوان آنها را بهدقت بهصورت دستی بررسی کرد، بنابراین ممکن است شامل نمونههای نامناسبی باشند که به عملکرد مدل آسیب میزنند. دانشمندان همچنین میدانند که برخی نقاط داده تأثیر بیشتری بر عملکرد مدل در برخی وظایف پاییندستی دارند.
رویکرد جدید محققان MIT برای شناسایی و حذف نقاط داده مشکلساز
محققان MIT دو ایده را ترکیب کردهاند تا رویکردی را ایجاد کنند که نقاط داده مشکلساز را شناسایی و حذف کند. هدف آنها حل مسئلهای به نام خطای بدترین گروه است که زمانی رخ میدهد که یک مدل در زیرگروههای اقلیت در یک مجموعه داده آموزشی عملکرد ضعیفی دارد. تکنیک جدید محققان بر اساس کارهای قبلی آنها است که در آنها روشی به نام TRAK معرفی شده است که مهمترین مثالهای آموزشی برای یک خروجی خاص مدل را شناسایی میکند.
در این تکنیک جدید، آنها پیشبینیهای نادرستی که مدل در مورد زیرگروههای اقلیت انجام داده است را بررسی میکنند و از TRAK برای شناسایی نمونههای آموزشی که بیشترین تأثیر را در آن پیشبینی نادرست داشتهاند، استفاده میکنند. ایلیاس توضیح میدهد: “با تجمیع این اطلاعات در مورد پیشبینیهای بد آزمون به شیوهای مناسب، میتوانیم بخشهای خاصی از آموزش را شناسایی کنیم که باعث کاهش دقت گروه بدترین میشود.” سپس آنها این نمونههای خاص را حذف کرده و مدل را با دادههای باقیمانده دوباره آموزش میدهند.
چون داشتن دادههای بیشتر معمولاً منجر به بهبود عملکرد کلی میشود، حذف فقط نمونههایی که باعث شکستهای گروه بدترین میشوند، دقت کلی مدل را حفظ کرده و عملکرد آن را در زیرگروههای اقلیت افزایش میدهد.
رویکردی قابل دسترس
در سه مجموعه داده یادگیری ماشین، روش آنها عملکرد بهتری نسبت به چندین تکنیک دیگر داشت. در یک مورد، این روش دقت گروه بدترین را افزایش داد در حالی که حدود ۲۰,۰۰۰ نمونه آموزشی کمتر از یک روش متعادلسازی دادههای متداول حذف کرد. تکنیک آنها همچنین دقت بالاتری نسبت به روشهایی که نیاز به تغییر در عملکرد داخلی مدل دارند، به دست آورد. از آنجایی که روش MIT شامل تغییر در مجموعه داده است، استفاده از آن برای یک کاربر آسانتر بوده و میتواند به انواع مختلف مدلها اعمال شود.
این روش همچنین میتواند زمانی که تعصب ناشناخته است مورد استفاده قرار گیرد، زیرا زیرگروهها در یک مجموعه داده آموزشی برچسبگذاری نشدهاند. با شناسایی نقاط دادهای که بیشترین تأثیر را بر ویژگیای که مدل در حال یادگیری است دارند، میتوانند متغیرهایی را که برای پیشبینی استفاده میکند، درک کنند. حمیدیه میگوید: “این ابزاری است که هر کسی میتواند هنگام آموزش یک مدل یادگیری ماشین از آن استفاده کند. آنها میتوانند به این نقاط داده نگاه کنند و ببینند آیا با قابلیتهایی که سعی در آموزش مدل دارند، همراستا هستند یا نه.”
استفاده از این تکنیک برای شناسایی تعصب زیرگروههای ناشناخته نیاز به شهود درباره اینکه کدام گروهها را باید جستجو کرد، دارد. بنابراین محققان امیدوارند این روش را اعتبارسنجی کرده و در مطالعات انسانی آینده به طور کامل بررسی کنند. آنها همچنین میخواهند عملکرد و قابلیت اطمینان تکنیک خود را بهبود بخشند و اطمینان حاصل کنند که این روش برای کاربرانی که ممکن است روزی آن را در محیطهای واقعی به کار ببرند، قابل دسترس و آسان باشد.
ایلیاس میگوید: “وقتی ابزارهایی دارید که به شما اجازه میدهند به طور انتقادی به دادهها نگاه کنید و بفهمید کدام نقاط داده منجر به تعصب یا رفتارهای نامطلوب دیگر میشوند، این اولین قدم به سمت ساخت مدلهایی است که عادلانهتر و قابل اعتمادتر خواهند بود.”
این کار بخشی از آن توسط بنیاد ملی علوم و آژانس پروژههای تحقیقاتی پیشرفته دفاعی ایالات متحده تأمین مالی شده است.
بیشتر بخوانید
مدیتیشن یک روز پربرکت برای جذب عشق وامنیت و سلامتی
خود هیپنوتیزم درمان زود انزالی در مردان توسط هیپنوتراپیست رضا خدامهری
تقویت سیستم ایمنی بدن با خود هیپنوتیزم
شمس و طغری
خود هیپنوتیزم ماندن در رژیم لاغری و درمان قطعی چاقی کاملا علمی و ایمن
خود هیپنوتیزم تقویت اعتماد به نفس و عزت نفس