غول‌های زبانی و پیش‌بینی نتایج پژوهش‌های علوم اعصاب

یک تحقیق تازه که توسط پژوهشگران دانشگاه کالج لندن (UCL) انجام شده، نشون می‌ده که غول‌های زبانی، نوعی هوش مصنوعی که متون رو بررسی می‌کنه، می‌تونن نتایج مطالعات پیشنهادی در حوزه‌ی علوم اعصاب رو با دقت بالاتری نسبت به متخصصان انسانی پیش‌بینی کنن. این یافته‌ها که در مجله‌ی Nature Human Behaviour چاپ شده، نشون می‌ده که این مدل‌ها که بر روی مجموعه‌های داده‌ی بزرگ متنی آموزش دیده‌ان، می‌تونن الگوهایی رو از مطالعات علمی استخراج کنن و در نتیجه، نتایج علمی رو با دقتی فراتر از انسان‌ها پیش‌بینی کنن.

محققان می‌گن این موضوع پتانسیل این مدل‌ها رو به‌عنوان ابزارهای قدرتمند برای سرعت بخشیدن به تحقیقات نشون می‌ده و فراتر از صرفاً بازیابی دانش است. دکتر کن لو، نویسنده‌ی اصلی این تحقیق از دانشکده‌ی روانشناسی و علوم زبان UCL، گفت: «از زمانی که هوش مصنوعی تولیدی مثل ChatGPT ظهور کرد، تحقیقات زیادی روی توانایی‌های پاسخگویی غول‌های زبانی متمرکز شده و مهارت حیرت‌آور اون‌ها در خلاصه‌سازی دانش از داده‌های آموزشی گسترده به نمایش گذاشته شده. اما به‌جای تأکید بر تواناییشون در بازیابی اطلاعات گذشته، ما بررسی کردیم که آیا غول‌های زبانی می‌تونن دانش رو با هم ترکیب کنن و نتایج آینده رو پیش‌بینی کنن.»

اون ادامه داد: «پیشرفت علمی اغلب به آزمایش و خطا بستگی داره، اما هر آزمایش دقیقی نیاز به زمان و منابع داره. حتی ماهرترین محققان هم ممکنه نکات کلیدی رو از مطالب علمی نادیده بگیرن. کار ما بررسی می‌کنه که آیا غول‌های زبانی می‌تونن الگوهایی رو در متون علمی وسیع شناسایی کرده و نتایج آزمایش‌ها رو پیش‌بینی کنن.»

تصویری از محققانی که در محیط اداری دارن روی بررسی داده‌های علوم اعصاب بحث می‌کنن.
محققان در حال بررسی و تحلیل داده‌های علوم اعصاب برای بالا بردن دقت نتایج.

توسعه‌ی ابزار BrainBench برای ارزیابی غول‌های زبانی

تیم تحقیقاتی بین‌المللی پژوهششون رو با توسعه‌ی ابزاری به اسم BrainBench شروع کردن که برای ارزیابی توانایی پیش‌بینی نتایج علوم اعصاب توسط غول‌های زبانی طراحی شده. BrainBench شامل تعدادی جفت خلاصه از مطالعات علوم اعصاب می‌شه. در هر جفت، یک نسخه‌ی خلاصه واقعي از مطالعه وجود داره که به‌صورت مختصر، زمینه‌ی تحقیق، روش‌های استفاده شده و نتایج مطالعه رو توضیح می‌ده. در نسخه‌ی دیگه، زمینه و روش‌ها یکسان هستن، اما نتایج توسط متخصصان علوم اعصاب به یک نتیجه‌ی غیرواقعی اما قابل قبول تغییر داده شده.

محققان ۱۵ مدل زبانی بزرگ عمومی و ۱۷۱ متخصص علوم اعصاب انسانی رو آزمایش کردن تا ببینن آیا هوش مصنوعی یا انسان می‌تونه به‌درستی تشخیص بده که کدوم یکی از دو خلاصه‌ی جفت شده، واقعي و نتایجش درسته. همه‌ی غول‌های زبانی از متخصصان علوم اعصاب عملکرد بهتری داشتن و میانگین دقت LLMها ۸۱٪ و میانگین دقت انسان‌ها ۶۳٪ بود.

همکاری انسان و مدل‌های هوش مصنوعی در علوم اعصاب

حتی وقتی تیم تحقیقاتی، پاسخ‌های انسانی رو به افرادی با بالاترین درجه‌ی تخصص در یک حوزه‌ی خاص از علوم اعصاب محدود کرد (بر اساس تخصص خودشون)، دقت دانشمندان علوم اعصاب باز هم به ۶۶ درصد رسید که کمتر از دقت مدل‌های زبانی بزرگ (LLMs) بود. علاوه بر این، محققان متوجه شدن که وقتی LLMها در تصمیم‌گیری‌هاشون اعتمادبه‌نفس بیشتری دارن، احتمال درست بودن اون‌ها هم بیشتر است. این یافته به‌گفته‌ی محققان، راه رو برای آینده‌ای هموار می‌کنه که در اون متخصصان انسانی می‌تونن با مدل‌های خوش‌ساختی [کالیبره‌شده] همکاری کنن.

اینفوگرافی که دقت پیش‌بینی نتایج مطالعات علوم اعصاب رو بین متخصصان انسانی و غول‌های زبانی مقایسه می‌کنه.
مقایسه‌ی دقت پیش‌بینی نتایج از سوی متخصصان انسانی و غول‌های زبانی در یک اینفوگرافیک جذاب.

بعد محققان یک LLM موجود (نسخه‌ای از Mistral، یک LLM متن‌باز) رو با آموزش دادن بر روی ادبیات علوم اعصاب، تطبیق دادن. این LLM جدید که به اسم BrainGPT نام‌گذاری شد و تخصصش در علوم اعصاب است، در پیش‌بینی نتایج مطالعات عملکرد بهتری داشت و به دقت ۸۶ درصد رسید (که نسبت به نسخه‌ی عمومی Mistral که ۸۳ درصد دقت داشت، بهبود پیدا کرده).

نویسنده‌ی ارشد، پروفسور بردلی لاو از دانشگاه UCL در علوم روانشناسی و زبان، گفت: «با توجه به نتایج ما، حدس می‌زنیم که زیاد طول نمی‌کشه که دانشمندان از ابزارهای هوش مصنوعی برای طراحی مؤثرترین آزمایش‌ها برای سوالاتشون استفاده کنن. در حالی‌که مطالعه‌ی ما روی علوم اعصاب متمرکز بود، رویکرد ما جهانی بود و میشه در همه‌ی علوم اجراش کرد.»

اون ادامه داد: «چیزی که حیرت‌انگیز است، توانایی LLMها در پیش‌بینی مطالعات علوم اعصاب است. این موفقیت نشون می‌ده که بخش زیادی از علم واقعاً خلاقانه نیست، بلکه مطابق با الگوهای موجود در نتایج تحقیقات است. ما تعجب می‌کنیم که آیا دانشمندان به‌اندازه‌ی کافی خلاق و کنجکاو هستن.»

تصویری از یک آزمایشگاه پیشرفته که تو اون ابزارهای هوش مصنوعی برای پژوهش‌های علوم اعصاب دارن ساخته میشن.
تصویری از روند ساخت ابزارهای هوش مصنوعی تو یک آزمایشگاه مدرن و پیشرفته.

دکتر لو اضافه کرد: «با تکیه بر نتایج ما، داریم ابزارهای هوش مصنوعی رو می‌سازیم تا به محققان کمک کنیم. ما آینده‌ای رو تصور می‌کنیم که در اون محققان می‌تونن طرح‌های آزمایشی پیشنهادی و نتایج مورد انتظارشون رو وارد کنن و هوش مصنوعی پیش‌بینی‌هایی درباره‌ی احتمال نتایج مختلف ارائه بده. این کار امکان تکرار سریع‌تر و تصمیم‌گیری آگاهانه‌تر در طراحی آزمایش رو فراهم می‌کنه.»

این پژوهش با حمایت شورای تحقیقات اقتصادی و اجتماعی (ESRC)، مایکروسافت و یک بورس تحصیلی ولفسون از انجمن سلطنتی انجام شد و شامل محققانی از دانشگاه‌های UCL، کمبریج، آکسفورد، مؤسسه‌ی ماکس پلانک برای نوروبیولوژی رفتار (آلمان)، دانشگاه بیلکنت (ترکیه) و مؤسسات دیگه در بریتانیا، ایالات متحده، سوئیس، روسیه، آلمان، بلژیک، دانمارک، کانادا، اسپانیا و استرالیا بود.

توجه: وقتی دو خلاصه ارائه می‌شه، LLM احتمال هر کدوم رو حساب می‌کنه و یه امتیازی به اسم perplexity به اون اختصاص می‌ده تا نشون بده بر اساس دانش خودش چقدر غیرمنتظره است، و همین‌طور زمینه (پیش‌زمینه و روش). محققان، اعتماد LLMها رو با اندازه‌گیری تفاوت در میزان شگفت‌انگیز بودن خلاصه‌های واقعی و ساختگی ارزیابی کردن – هرچقدر این تفاوت بیشتر باشه، اعتماد هم بیشتره و این با احتمال بالاتر انتخاب خلاصه‌ی درست توسط LLM همبستگی داره.

“`

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *