بهبود تخمین عدم قطعیت در مدلهای یادگیری ماشین
از آنجا که مدلهای یادگیری ماشین ممکن است پیشبینیهای نادرستی ارائه دهند، محققان معمولاً این مدلها را به قابلیت ارزیابی اعتماد به نفس در تصمیمگیریهای خود مجهز میکنند. این موضوع بهویژه در زمینههای حساس، مانند شناسایی بیماریها در تصاویر پزشکی یا فیلتر کردن درخواستهای شغلی، اهمیت زیادی دارد. اما تخمینهای عدم قطعیت یک مدل تنها در صورتی مفید هستند که دقیق باشند. به عنوان مثال، اگر یک مدل بگوید که ۴۹٪ مطمئن است که یک تصویر پزشکی نشاندهندهی افیوزن پلور است، در این صورت باید ۴۹٪ از زمان، این مدل درست باشد.
محققان MIT یک رویکرد جدید معرفی کردهاند که میتواند تخمینهای عدم قطعیت در مدلهای یادگیری ماشین را بهبود بخشد. روش آنها نه تنها تخمینهای عدم قطعیت دقیقتری نسبت به تکنیکهای دیگر تولید میکند، بلکه این کار را بهطور کارآمدتری انجام میدهد. علاوه بر این، به دلیل مقیاسپذیری این تکنیک، میتوان آن را به مدلهای عمیق بزرگ که به طور فزایندهای در مراقبتهای بهداشتی و دیگر موقعیتهای حساس به کار گرفته میشوند، اعمال کرد. این تکنیک میتواند به کاربران نهایی، که بسیاری از آنها تخصصی در یادگیری ماشین ندارند، اطلاعات بهتری ارائه دهد تا بتوانند تصمیم بگیرند که آیا باید به پیشبینیهای یک مدل اعتماد کنند یا اینکه آیا مدل باید برای یک کار خاص به کار گرفته شود.
نویسنده اصلی این تحقیق، ناتان نگ، دانشجوی تحصیلات تکمیلی در دانشگاه تورنتو و دانشجوی مهمان در MIT، میگوید: “به راحتی میتوان دید که این مدلها در سناریوهایی که بسیار خوب عمل میکنند، عملکرد خوبی دارند و سپس فرض کرد که در سایر سناریوها نیز به همین خوبی خواهند بود. این موضوع اهمیت کارهایی از این دست را که به دنبال بهبود کالیبراسیون عدم قطعیت این مدلها هستند، بیشتر میکند تا اطمینان حاصل شود که این عدم قطعیتها با درک انسانی از عدم قطعیت همراستا هستند.”
نگ این مقاله را با راجر گروس، استادیار علوم کامپیوتر در دانشگاه تورنتو و مژده قاسمی، استاد همکار در دپارتمان مهندسی برق و علوم کامپیوتر و عضو مؤسسه علوم مهندسی پزشکی و آزمایشگاه سیستمهای اطلاعات و تصمیمگیری، نوشته است. این تحقیق در کنفرانس بینالمللی یادگیری ماشین ارائه خواهد شد.
📢 اگر عاشق علم هستید و نمیخواهید هیچ مقالهای را از دست بدهید…
به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر میشوند.
📲 عضویت در کانال تلگرام🎨 ربات رایگان ساخت عکس با هوش مصنوعی
با ربات @ai_photo_bbot، هر متنی را به تصویر تبدیل کنید! 🚀
ربات کاملاً رایگان است و منتظر ایدههای جذاب شماست. 🌟
تخمین عدم قطعیت
روشهای تخمین عدم قطعیت معمولاً به محاسبات آماری پیچیدهای نیاز دارند که برای مدلهای یادگیری ماشین با میلیونها پارامتر به خوبی مقیاسپذیر نیستند. این روشها همچنین نیازمند این هستند که کاربران فرضیاتی درباره مدل و دادههای استفاده شده برای آموزش آن ارائه دهند. محققان MIT رویکرد متفاوتی را اتخاذ کردند. آنها از آنچه که به عنوان اصل حداقل طول توصیف (MDL) شناخته میشود، استفاده کردند که نیازی به فرضیاتی ندارد که میتواند دقت سایر روشها را تحت تأثیر قرار دهد. MDL برای بهبود تخمین و کالیبراسیون عدم قطعیت برای نقاط آزمایشی که مدل خواسته شده است تا برچسبگذاری کند، استفاده میشود.
تکنیکی که محققان توسعه دادهاند، به نام IF-COMP، MDL را به اندازه کافی سریع میکند تا بتوان از آن در مدلهای عمیق بزرگ که در بسیاری از محیطهای واقعی به کار گرفته میشوند، استفاده کرد. MDL شامل در نظر گرفتن تمام برچسبهای ممکن است که یک مدل میتواند به یک نقطه آزمایشی اختصاص دهد.
کاهش اعتماد مدلها با وجود برچسبهای جایگزین
اگر برای یک نقطه داده برچسبهای جایگزین زیادی وجود داشته باشد که به خوبی با آن تناسب داشته باشند، اعتماد مدل به برچسبی که انتخاب کرده باید کاهش یابد. نگ میگوید: “یک راه برای درک میزان اعتماد یک مدل، این است که اطلاعات متضاد را به آن بگویید و ببینید چقدر احتمال دارد که به شما ایمان بیاورد.” به عنوان مثال، فرض کنید مدلی میگوید که یک تصویر پزشکی نشاندهندهی افیوژن پلور است. اگر محققان به مدل بگویند که این تصویر نشاندهندهی ادم است و مدل آماده باشد تا باور خود را بهروزرسانی کند، در این صورت باید اعتماد کمتری به تصمیم اولیهاش داشته باشد.
پیچیدگی دادههای تصادفی و کدگذاری
با استفاده از MDL، اگر یک مدل در برچسبگذاری یک نقطه داده مطمئن باشد، باید از یک کد بسیار کوتاه برای توصیف آن نقطه استفاده کند. اگر در مورد تصمیم خود نامطمئن باشد زیرا آن نقطه میتواند برچسبهای دیگری نیز داشته باشد، باید از یک کد طولانیتر برای پوشش این احتمالات استفاده کند. مقدار کدی که برای برچسبگذاری یک نقطه داده استفاده میشود به عنوان پیچیدگی دادههای تصادفی شناخته میشود. اگر محققان از مدل بپرسند که چقدر آماده است تا باور خود را در مورد یک نقطه داده با توجه به شواهد متضاد بهروزرسانی کند، پیچیدگی دادههای تصادفی باید در صورتی که مدل مطمئن باشد، کاهش یابد. اما آزمایش هر نقطه داده با استفاده از MDL نیاز به محاسبات بسیار زیادی دارد.
تسریع فرآیند با IF-COMP
با IF-COMP، محققان یک تکنیک تقریبزنی توسعه دادند که میتواند به طور دقیق پیچیدگی دادههای تصادفی را با استفاده از یک تابع خاص به نام تابع تأثیر تخمین بزند. آنها همچنین از یک تکنیک آماری به نام مقیاسگذاری دما استفاده کردند که کالیبراسیون خروجیهای مدل را بهبود میبخشد. این ترکیب تابع تأثیر و مقیاسگذاری دما امکان تقریبهای با کیفیت بالا از پیچیدگی دادههای تصادفی را فراهم میکند. در نهایت، IF-COMP میتواند به طور کارآمد مقادیر عدم قطعیت به خوبی کالیبره شدهای تولید کند که اعتماد واقعی مدل را منعکس میکند.
شناسایی نقاط داده اشتباه برچسبگذاری شده
این تکنیک همچنین میتواند تعیین کند که آیا مدل برخی نقاط داده را اشتباه برچسبگذاری کرده است یا نقاط دادهای که خارج از محدوده هستند را شناسایی کند. محققان سیستم خود را بر روی این سه وظیفه آزمایش کردند و دریافتند که این سیستم سریعتر و دقیقتر از روشهای دیگر عمل میکند. غاسمی میگوید: “واقعاً مهم است که اطمینان داشته باشیم که یک مدل به خوبی کالیبره شده است و نیاز فزایندهای به شناسایی زمانی که یک پیشبینی خاص به درستی به نظر نمیرسد، وجود دارد. ابزارهای حسابرسی در مسائل یادگیری ماشین به دلیل استفاده از حجم زیادی از دادههای بررسی نشده برای ساخت مدلهایی که به مشکلات انسانی اعمال میشوند، ضروریتر میشوند.”
کاربردهای گسترده IF-COMP
IF-COMP مستقل از مدل است، بنابراین میتواند مقادیر عدم قطعیت دقیقی برای انواع مختلف مدلهای یادگیری ماشین ارائه دهد. این میتواند به آن کمک کند تا در دامنه وسیعتری از محیطهای واقعی به کار گرفته شود و در نهایت به بیشترین تعداد از متخصصان کمک کند تا تصمیمات بهتری بگیرند. نگ میگوید: “مردم باید درک کنند که این سیستمها بسیار خطاپذیر هستند و ممکن است در حین کار چیزهایی را اختراع کنند. یک مدل ممکن است به نظر رسد که بسیار مطمئن است، اما در واقع ممکن است چیزهای زیادی وجود داشته باشد که با توجه به شواهد متضاد، آماده است تا به آنها ایمان بیاورد.”
آینده پژوهشها
در آینده، محققان به دنبال بهکارگیری رویکرد خود در مدلهای زبانی بزرگ و مطالعه سایر موارد استفاده احتمالی برای اصل حداقل طول توصیف هستند.
بیشتر بخوانید
مدیتیشن یک روز پربرکت برای جذب عشق وامنیت و سلامتی
خود هیپنوتیزم درمان زود انزالی در مردان توسط هیپنوتراپیست رضا خدامهری
تقویت سیستم ایمنی بدن با خود هیپنوتیزم
شمس و طغری
خود هیپنوتیزم ماندن در رژیم لاغری و درمان قطعی چاقی کاملا علمی و ایمن
خود هیپنوتیزم تقویت اعتماد به نفس و عزت نفس