تعصب-هوش-مصنوعی

نگاهی نو به تعصبات اجتماعی در سامانه‌های هوش مصنوعی

تحقیقات نشون داده که ما آدما نسبت به تعصبات هویت اجتماعی حساسیم؛ یعنی به گروه خودمون (چه یه حزب سیاسی باشه، چه یه مذهب یا یه قومیت) گرایش بیشتری داریم و گروه‌های دیگه رو دست کم می‌گیریم. یه پژوهش تازه که یه تیم از دانشمندا انجام دادن، نشون می‌ده که سامانه‌های هوش مصنوعی هم به همین نوع تعصبات دچار می‌شن و پیش‌داوری‌های اساسی رو بروز می‌دن که فراتر از تعصبات جنسیتی، نژادی یا مذهبیه.

استیو راثجی، محقق فوق دکتری از دانشگاه نیویورک و یکی از نویسنده‌های این مطالعه که تو نشریه Nature Computational Science منتشر شده، اینطوری توضیح می‌ده: «سیستم‌های هوش مصنوعی مثل ChatGPT، می‌تونن تعصبات “ما در برابر آنها” رو مشابه انسان‌ها پرورش بدن و به گروه‌های خودشون تمایل نشون بدن، در حالی که نسبت به گروه‌های دیگه احساس منفی دارن.» و اضافه می‌کنه: «این قضیه بازتاب‌دهنده یه گرایش بنیادیه تو وجود انسان که به تقسیمات اجتماعی و درگیری‌ها دامن می‌زنه.»

اما این بررسی که با همکاری دانشمندان دانشگاه کمبریج انجام شده، خبرای خوبی هم داره: می‌شه تعصبات هوش مصنوعی رو با انتخاب دقیق داده‌هایی که برای آموزش این سیستم‌ها استفاده می‌شه، کم کرد. تیانچنگ هو، دانشجوی دکترای دانشگاه کمبریج و یکی از نویسنده‌های این مقاله، می‌گه: «با توجه به اینکه هوش مصنوعی داره بیشتر و بیشتر وارد زندگی روزمره‌مون می‌شه، درک و رسیدگی به این تعصبات خیلی حیاتیه تا از تشدید تقسیمات اجتماعی موجود جلوگیری کنیم.»

تصویری از یه آزمایشگاه تحقیقاتی که دانشمندا دارن درباره تعصبات هوش مصنوعی بحث می‌کنن.
تحقیقات نشون می‌ده که سامانه‌های هوش مصنوعی هم مستعد تعصبات اجتماعی هستن.

بررسی مدل‌های زبانی بزرگ

کار پژوهشی که تو Nature Computational Science چاپ شده، ده‌ها مدل زبانی بزرگ (LLMs) رو بررسی کرده، از مدل‌های پایه‌ای مثل Llama گرفته تا مدل‌های پیشرفته‌تر که برای دستورالعمل‌ها تنظیم شدن، مثل GPT-4 که ChatGPT رو قدرتمند می‌کنه. برای ارزیابی تعصبات هویت اجتماعی تو هر مدل زبانی، محققان مجموعاً 2000 جمله رو با استفاده از عبارت‌های «ما هستیم» (گروه خودی) و «آنها هستن» (گروه دیگه) ساختن، که هر دو به پویایی «ما در برابر آنها» ربط داشتن و بعد گذاشتن مدل‌ها جمله‌ها رو کامل کنن.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

این تیم از ابزارهای تحلیلی رایج استفاده کرد تا بسنجه که آیا جمله‌ها «مثبت»، «منفی» یا «خنثی» هستن یا نه. تقریباً تو همه موارد، عبارت‌های «ما هستیم» جمله‌های مثبت‌تری تولید کردن، در حالی که عبارت‌های «آنها هستن» جمله‌های منفی‌تری رو به همراه داشت.

نمای نزدیک از رابط یه مدل زبانی بزرگ که داره تکمیل متن رو نشون می‌ده.
مدل‌های زبانی بزرگ می‌تونن تمایلات مثبت و منفی رو نشون بدن.

آنالیز رفتار گروهی تو مدل‌های زبانی بزرگ

به طور خاص، جمله‌های مربوط به گروه خودی (در مقایسه با گروه بیگانه) ۹۳٪ احتمال بیشتری داشتن که مثبت باشن؛ که این یه الگوی کلی از همبستگی درون‌گروهی رو نشون می‌ده. در مقابل، جمله‌های مربوط به گروه بیگانه ۱۱۵٪ احتمال بیشتری داشتن که منفی باشن، که نشون‌دهنده یه خصومت قوی نسبت به گروه‌های بیگانه است. به عنوان مثال، جمله مثبت «ما یه گروه از جوونای بااستعدادیم که داریم به سطح بعدی می‌رسیم» و جمله منفی «اونا مثل یه درخت مریض و بدشکل از گذشته هستن» بودن. یه جمله مثل «ما تو دوره‌ای زندگی می‌کنیم که جامعه تو همه سطوح داره دنبال راه‌های جدیدی برای فکر کردن و زندگی کردن تو ارتباطات می‌گرده» هم به عنوان یه جمله خنثی مطرح شد.

بعد، محققان سعی کردن که بفهمن آیا می‌شه این نتایج رو با تغییر دادن نحوه آموزش مدل‌های زبانی بزرگ (LLMs) تغییر داد یا نه. برای این کار، اونا مدل رو با داده‌های طرفدارانه از شبکه‌های اجتماعی مثل توییتر (که الان X نام داره) تنظیم دقیق کردن و یه افزایش قابل توجه تو همبستگی درون‌گروهی و خصومت نسبت به گروه‌های بیگانه دیدن. به عبارت دیگه، وقتی اونا جمله‌هایی که طرفداری از گروه خودی و خصومت نسبت به گروه بیگانه رو داشتن، از همون داده‌های شبکه‌های اجتماعی قبل از تنظیم دقیق حذف کردن، تونستن به طور موثری این اثرات قطبی کننده رو کاهش بدن. این نشون می‌ده که تغییرات نسبتاً کوچیک، اما هدفمند تو داده‌های آموزشی می‌تونن تأثیرات قابل توجهی روی رفتار مدل داشته باشن.

اینفوگرافیکی از داده‌های آماری درباره تعصب زبانی درون‌گروهی و برون‌گروهی.
داده‌های آماری تمایلات رفتاری گروه‌های خودی و بیگانه رو نشون می‌ده.

به زبان ساده‌تر، محققان فهمیدن که با دقت تو انتخاب داده‌های آموزشی، می‌شه مدل‌های زبانی بزرگ رو جوری تنظیم کرد که کمتر یا بیشتر دچار تعصب بشن. یارا کیریچنکو، نویسنده این تحقیق و دانشجوی دکترای دانشگاه کمبریج، می‌گه: «موفقیت تو انتخاب داده‌های نسبتاً ساده تو کم کردن سطوح همبستگی درون‌گروهی و خصومت نسبت به گروه‌های بیگانه، مسیرای امیدوارکننده‌ای برای بهتر کردن توسعه و آموزش هوش مصنوعی نشون می‌ده.» اون همچنین اشاره می‌کنه که «جالبه که حذف همبستگی درون‌گروهی از داده‌های آموزشی، خصومت نسبت به گروه‌های بیگانه رو هم کم می‌کنه، که نشون‌دهنده نقش گروه خودی تو تبعیض نسبت به گروه‌های بیگانه است.»

دیگه نویسنده‌های این مطالعه شامل نایجل کالییر، استاد پردازش زبان طبیعی تو دانشگاه کمبریج، ساندر ون در لیندن، استاد روانشناسی اجتماعی تو دانشگاه کمبریج، و جان روزن‌بیک، استادیار روانشناسی و امنیت تو کالج کینگ لندن بودن.

“`

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *