تعصب-هویتی-اجتماعی

بررسی‌های تازه در مورد جانبداری‌های گروهی در هوش مصنوعی

تحقیقات نشون داده که آدما به چیزی که بهش می‌گن “سوگیریِ هویتِ اجتماعی” حساسن؛ یعنی گرایش دارن از گروه خودشون دفاع کنن، چه اون گروه یه حزب سیاسی باشه، یه مذهب باشه، یا یه قومیت. یه پژوهش جدید که توسط یه تیم از دانشمندا انجام شده، نشون می‌ده که سیستم‌های هوش مصنوعی هم دچار همین نوع سوگیری‌ها می‌شن و یه سری پیش‌فرض‌های بنیادی رو نشون می‌دن که فراتر از سوگیری‌های مربوط به جنسیت، نژاد یا دینه.

استیو راثجی، که بعد از دکتراش توی دانشگاه نیویورک کار می‌کنه و یکی از نویسنده‌های این تحقیقه که توی مجله‌ی “نیچر کامپیوتِیشِنال ساینس” منتشر شده، این‌طوری توضیح می‌ده: «سیستم‌های هوش مصنوعی مثل چت‌جی‌پی‌تی می‌تونن سوگیری‌های “ما در مقابل اونا” شبیه آدم‌ها رو توسعه بدن و به گروه خودشون (in-group) تمایل نشون بدن، درحالی‌که نسبت به گروه‌های دیگه (out-group) نظر منفی دارن.» اون ادامه می‌ده: «این مسئله نشون‌دهنده‌ی یه گرایش اساسیِ انسانیه که به اختلافات و درگیری‌های اجتماعی دامن می‌زنه.»

یه گروه متنوع از پژوهشگرا تو یه آزمایشگاه مدرن دارن درباره‌ی سوگیری اجتماعی در هوش مصنوعی بحث می‌کنن.
تحقیق و بررسیِ سوگیری‌های هویتِ اجتماعی بین محققای هوش مصنوعی.

اما این مطالعه که با همکاری دانشمندای دانشگاه کمبریج انجام شده، خبرای امیدبخشی هم داره: می‌شه سوگیری‌های هوش مصنوعی رو با انتخاب دقیق داده‌هایی که برای آموزش این سیستم‌ها استفاده می‌شه، کم کرد. تیان چنگ هو، دانشجوی دکترای دانشگاه کمبریج و یکی از نویسنده‌های این مقاله، می‌گه: «باتوجه‌به این‌که هوش مصنوعی داره بیشتر وارد زندگی روزمره‌مون می‌شه، فهمیدن و برخورد با این سوگیری‌ها برای جلوگیری از تشدید اختلافات اجتماعی که الان هست، خیلی مهمه.»

این تحقیق که توی مجله‌ی “نیچر کامپیوتِیشِنال ساینس” چاپ شده، ده‌ها مدل زبانی بزرگ (LLMs) رو بررسی کرده، از جمله مدلای پایه‌ای مثل لامّا و مدل‌های پیشرفته‌تر که به‌طور خاص برای دستورالعمل‌ها تنظیم شدن، مثل جی‌پی‌تی-4 که چت‌جی‌پی‌تی رو پشتیبانی می‌کنه. برای ارزیابی سوگیری‌های هویتِ اجتماعی تو هر مدل زبانی، پژوهشگرا در مجموع 2000 جمله با شروع “ما هستیم” (in-group) و “اونا هستن” (out-group) ساختن که هر دو با مفهوم “ما در مقابل اونا” در ارتباط بودن، و بعد به مدل‌ها اجازه دادن که جمله‌ها رو کامل کنن.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

تیم تحقیق از ابزارهای تحلیلی رایج استفاده کرد تا بسنجه که آیا جمله‌ها “مثبت”، “منفی” یا “خنثی” هستن یا نه. تقریباً تو همه‌ی موارد، جمله‌هایی که با “ما هستیم” شروع می‌شدن، جملات مثبت‌تری تولید کردن، درحالی‌که جمله‌هایی که با “اونا هستن” شروع می‌شدن، جملات منفی‌تری رو برگردوندن.

یه تصویر انتزاعی از سوگیری‌های رفتاری در هوش مصنوعی با مغز انسان و یه مدار الکتریکی.
مقایسه‌ی سوگیری‌های انسانی و هوش مصنوعی از طریق یه تصویر انتزاعی.

تحلیلِ تاثیراتِ گروه‌هایِ اجتماعی روی مدلایِ زبانی

رسیدیم به این‌که، جمله‌های مربوط به گروه خودی (در مقایسه با گروه غیرخودی) ۹۳٪ بیشتر احتمال داشت مثبت باشن، که این خودش یه الگو برای همبستگی درون‌گروهی‌ه. برعکس، جمله‌های مربوط به گروه غیرخودی ۱۱۵٪ بیشتر احتمال داشت منفی باشن، که نشون‌دهنده‌ی یه خصومتِ شدید نسبت به گروه‌های خارجی‌ه. مثلاً، جمله مثبت: «ما یه گروه از جوونای بااستعدادیم که داریم می‌ریم سطح بالاتر» و جمله‌ی منفی: «اونا مثل یه درخت بیمار و بدشکل از گذشته‌ان.» همین‌طور، جمله: «ما تو دوره‌ای زندگی می‌کنیم که جامعه داره در تمام سطوح به‌دنبال راه‌های جدید برای فکر کردن و زندگی کردن تو روابطه» به‌عنوان یه جمله‌ی خنثی در نظر گرفته شد.

بعد، محققا سعی کردن ببینن می‌شه این نتایج رو با تغییر دادنِ نحوه آموزشِ مدل‌های زبانی بزرگ (LLMs) تغییر داد یا نه. برای این کار، اونا مدل رو با داده‌های رسانه‌های اجتماعی طرفدارانه از توییتر (که الان اسمش اکس هست) تنظیم دقیق کردن و یه افزایش قابل‌توجه تو هر دو همبستگی درون‌گروهی و خصومت برون‌گروهی دیدن. برعکس، وقتی اونا جمله‌هایی رو که ترجیح گروه خودی و خصومت گروه غیرخودی رو نشون می‌داد، از همون داده‌های رسانه‌های اجتماعی قبل از تنظیم دقیق فیلتر کردن، تونستن به‌طور مؤثری این تأثیراتِ قطبی‌کننده رو کم کنن. این نشون می‌ده که تغییرات نسبتاً کوچیک، اما هدفمند توی داده‌های آموزشی می‌تونه تاثیرات قابل‌توجهی روی رفتار مدل داشته باشه.

یه تصویر نزدیک از یه سیستم هوش مصنوعی تعاملی که داره یه گفتگو رو روی صفحه‌ی کامپیوتر نشون می‌ده.
تعامل کاربر با سیستم هوش مصنوعی و تأثیرات مثبت و منفیِ گفتار.

به‌عبارتِ دیگه، محققا فهمیدن که می‌شه مدل‌های زبانی بزرگ رو، با دقت تو انتخاب داده‌های آموزشی، جوری تنظیم کرد که بیشتر یا کمتر متعصب باشن. یارا کیریچنکو، نویسنده این تحقیق و دانشجوی دکترای دانشگاه کمبریج، می‌گه: «مؤثر بودن حتی داده‌کاویِ ساد‌ه تو کاهش سطوح همبستگی درون‌گروهی و خصومت برون‌گروهی، یه مسیر امیدوارکننده برای بهتر کردنِ توسعه و آموزشِ هوش مصنوعی نشون می‌ده.» اون همچنین اشاره می‌کنه: «جالبه که حذفِ همدلی توی گروه خودی از داده‌های آموزشی، خصومت تو گروه غیرخودی رو هم کم می‌کنه که این خودش نقشِ گروهِ خودی رو تو تبعیض تو گروه غیرخودی نشون می‌ده.»

دیگه نویسنده‌های این مطالعه شامل نیگل کالییر، استاد پردازش زبان طبیعی تو دانشگاه کمبریج، ساندر ون در لیندن، استاد روان‌شناسی اجتماعی تو دانشگاه کمبریج، و جان رُزِن‌بیک، استادِ روان‌شناسی و امنیت توی کالج کینگز لندن، بودن.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *