مدل‌های زبانی بزرگ و پیش‌بینی نتایج مطالعات علوم اعصاب

یک مطالعه جدید که توسط محققان دانشگاه کالج لندن (UCL) انجام شده است، نشان می‌دهد که مدل‌های زبانی بزرگ، نوعی هوش مصنوعی که متن را تحلیل می‌کند، می‌توانند نتایج مطالعات پیشنهادی در زمینه علوم اعصاب را با دقت بیشتری نسبت به کارشناسان انسانی پیش‌بینی کنند. این یافته‌ها که در نشریه Nature Human Behaviour منتشر شده، نشان می‌دهد که این مدل‌ها که بر روی مجموعه‌های داده وسیع متنی آموزش دیده‌اند، می‌توانند الگوهایی را از ادبیات علمی استخراج کنند و به این ترتیب، نتایج علمی را با دقتی فراتر از انسان پیش‌بینی نمایند.

محققان می‌گویند این موضوع پتانسیل این مدل‌ها را به عنوان ابزارهای قدرتمند برای تسریع در تحقیقات نشان می‌دهد و فراتر از صرفاً بازیابی دانش است. دکتر کن لو، نویسنده اصلی این تحقیق از دانشکده روانشناسی و علوم زبان UCL، گفت: “از زمان ظهور هوش مصنوعی تولیدی مانند ChatGPT، تحقیقات زیادی بر روی توانایی‌های پاسخگویی مدل‌های زبانی بزرگ متمرکز شده و مهارت شگفت‌انگیز آن‌ها در خلاصه‌سازی دانش از داده‌های آموزشی گسترده به نمایش گذاشته شده است. اما به جای تأکید بر توانایی آن‌ها در بازیابی اطلاعات گذشته، ما بررسی کردیم که آیا مدل‌های زبانی بزرگ می‌توانند دانش را ترکیب کرده و نتایج آینده را پیش‌بینی کنند.”

او ادامه داد: “پیشرفت علمی اغلب به آزمون و خطا بستگی دارد، اما هر آزمایش دقیق نیازمند زمان و منابع است. حتی ماهرترین محققان نیز ممکن است نکات کلیدی را از ادبیات نادیده بگیرند. کار ما بررسی می‌کند که آیا مدل‌های زبانی بزرگ می‌توانند الگوهایی را در متون علمی وسیع شناسایی کرده و نتایج آزمایش‌ها را پیش‌بینی کنند.”

تصویری از محققانی که در محیط دفتر کار بر روی تجزیه و تحلیل داده‌های علوم اعصاب بحث می‌کنند.
محققان در حال بررسی و تجزیه و تحلیل داده‌های علوم اعصاب برای افزایش دقت نتایج.

توسعه ابزار BrainBench برای ارزیابی مدل‌های زبانی بزرگ

تیم تحقیقاتی بین‌المللی مطالعه خود را با توسعه ابزاری به نام BrainBench آغاز کرد که برای ارزیابی توانایی پیش‌بینی نتایج علوم اعصاب توسط مدل‌های زبانی بزرگ طراحی شده است. BrainBench شامل تعدادی جفت چکیده از مطالعات علوم اعصاب است. در هر جفت، یک نسخه چکیده واقعی مطالعه وجود دارد که به طور مختصر زمینه تحقیق، روش‌های استفاده شده و نتایج مطالعه را توصیف می‌کند. در نسخه دیگر، زمینه و روش‌ها یکسان هستند، اما نتایج توسط کارشناسان در حوزه علوم اعصاب به یک نتیجه غیرواقعی اما قابل قبول تغییر یافته است.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

محققان ۱۵ مدل زبانی بزرگ عمومی و ۱۷۱ کارشناس علوم اعصاب انسانی را آزمایش کردند تا ببینند آیا هوش مصنوعی یا فرد می‌تواند به درستی تعیین کند که کدام یک از دو چکیده جفت شده، واقعی و دارای نتایج واقعی است. تمامی مدل‌های زبانی بزرگ از کارشناسان علوم اعصاب بهتر عمل کردند و میانگین دقت LLMها ۸۱٪ و میانگین دقت انسان‌ها ۶۳٪ بود.

همکاری انسان و مدل‌های هوش مصنوعی در علوم اعصاب

حتی زمانی که تیم تحقیقاتی پاسخ‌های انسانی را به افرادی با بالاترین درجه تخصص در یک حوزه خاص از علوم اعصاب محدود کرد (بر اساس تخصص خودگزارش‌شده)، دقت دانشمندان علوم اعصاب همچنان به ۶۶ درصد رسید که کمتر از دقت مدل‌های زبان بزرگ (LLMs) بود. علاوه بر این، محققان دریافتند که وقتی LLMها در تصمیم‌گیری‌های خود اعتماد بیشتری دارند، احتمال درست بودن آن‌ها نیز بیشتر است. این یافته به گفته محققان، راه را برای آینده‌ای هموار می‌کند که در آن کارشناسان انسانی می‌توانند با مدل‌های به‌خوبی کالیبره‌شده همکاری کنند.

اینفوگرافیکی که مقایسه دقت پیش‌بینی نتایج مطالعات علوم اعصاب بین کارشناسان انسانی و مدل‌های زبانی بزرگ را نشان می‌دهد.
مقایسه دقت پیش‌بینی نتایج از سوی کارشناسان انسانی و مدل‌های زبانی بزرگ در یک اینفوگرافیک جذاب.

محققان سپس یک LLM موجود (نسخه‌ای از Mistral، یک LLM متن‌باز) را با آموزش آن بر روی ادبیات علوم اعصاب تطبیق دادند. این LLM جدید که به نام BrainGPT نامگذاری شد و تخصصی در علوم اعصاب دارد، در پیش‌بینی نتایج مطالعات عملکرد بهتری داشت و به دقت ۸۶ درصد رسید (که نسبت به نسخه عمومی Mistral که ۸۳ درصد دقت داشت، بهبود یافته است).

نویسنده ارشد، پروفسور بردلی لاو از دانشگاه UCL در علوم روانشناسی و زبان، گفت: “با توجه به نتایج ما، ما گمان می‌کنیم که زمان زیادی نمی‌گذرد که دانشمندان از ابزارهای هوش مصنوعی برای طراحی مؤثرترین آزمایش‌ها برای سوالات خود استفاده کنند. در حالی که مطالعه ما بر روی علوم اعصاب متمرکز بود، رویکرد ما جهانی بود و باید در تمامی علوم به‌خوبی اعمال شود.”

او ادامه داد: “آنچه شگفت‌انگیز است، توانایی LLMها در پیش‌بینی ادبیات علوم اعصاب است. این موفقیت نشان می‌دهد که بخش زیادی از علم واقعاً نوآورانه نیست، بلکه مطابق با الگوهای موجود در نتایج ادبیات است. ما تعجب می‌کنیم که آیا دانشمندان به اندازه کافی نوآور و کاوشگر هستند.”

تصویری از یک آزمایشگاه پیشرفته که در آن ابزارهای هوش مصنوعی برای تحقیقات علوم اعصاب در حال توسعه است.
تصویری از فرآیند توسعه ابزارهای هوش مصنوعی در یک آزمایشگاه مدرن و پیشرفته.

دکتر لو افزود: “با تکیه بر نتایج ما، در حال توسعه ابزارهای هوش مصنوعی برای کمک به محققان هستیم. ما آینده‌ای را تصور می‌کنیم که در آن محققان می‌توانند طراحی‌های آزمایش پیشنهادی و نتایج مورد انتظار خود را وارد کنند و هوش مصنوعی پیش‌بینی‌هایی درباره احتمال نتایج مختلف ارائه دهد. این امر امکان تکرار سریع‌تر و تصمیم‌گیری آگاهانه‌تر در طراحی آزمایش را فراهم می‌کند.”

این مطالعه با حمایت شورای تحقیقات اقتصادی و اجتماعی (ESRC)، مایکروسافت و یک بورس تحصیلی ولفسون از انجمن سلطنتی انجام شد و شامل محققانی از دانشگاه‌های UCL، کمبریج، آکسفورد، مؤسسه ماکس پلانک برای نوروبیولوژی رفتار (آلمان)، دانشگاه بیلکنت (ترکیه) و دیگر مؤسسات در بریتانیا، ایالات متحده، سوئیس، روسیه، آلمان، بلژیک، دانمارک، کانادا، اسپانیا و استرالیا بود.

توجه: هنگامی که دو چکیده ارائه می‌شود، LLM احتمال هر یک را محاسبه کرده و نمره‌ای به نام perplexity به آن اختصاص می‌دهد تا نشان دهد هر یک چقدر شگفت‌انگیز است، بر اساس دانش آموخته‌شده خود و همچنین زمینه (پس‌زمینه و روش). محققان اعتماد LLMها را با اندازه‌گیری تفاوت در شگفت‌آوری چکیده‌های واقعی و جعلی ارزیابی کردند – هر چه این تفاوت بیشتر باشد، اعتماد بیشتر است و این با احتمال بالاتر انتخاب چکیده صحیح توسط LLM همبستگی دارد.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *