تعصب-هوش-مصنوعی

تحقیقات جدید درباره تعصبات اجتماعی در سیستم‌های هوش مصنوعی

تحقیقات نشان داده‌اند که انسان‌ها به تعصب هویت اجتماعی حساس هستند؛ به این معنا که به گروه خود، چه یک حزب سیاسی، یک مذهب یا یک قومیت، تمایل بیشتری دارند و گروه‌های دیگر را تحقیر می‌کنند. یک مطالعه جدید که توسط تیمی از دانشمندان انجام شده، نشان می‌دهد که سیستم‌های هوش مصنوعی نیز به همین نوع تعصبات دچار هستند و پیش‌داوری‌های بنیادی را نشان می‌دهند که فراتر از تعصبات مربوط به جنسیت، نژاد یا مذهب است.

استیو راثجی، پژوهشگر فوق دکتری دانشگاه نیویورک و یکی از نویسندگان این مطالعه که در نشریه Nature Computational Science منتشر شده، توضیح می‌دهد: “سیستم‌های هوش مصنوعی، مانند ChatGPT، می‌توانند تعصبات ‘ما در برابر آنها’ مشابه انسان‌ها را توسعه دهند و به گروه‌های خود تمایل نشان دهند در حالی که نسبت به گروه‌های دیگر احساس منفی دارند.” او می‌افزاید: “این موضوع بازتاب‌دهنده یک تمایل بنیادی انسانی است که به تقسیمات اجتماعی و درگیری‌ها کمک می‌کند.”

اما این مطالعه که با همکاری دانشمندان دانشگاه کمبریج انجام شده، خبرهای مثبتی نیز ارائه می‌دهد: تعصبات هوش مصنوعی می‌توانند با انتخاب دقیق داده‌های مورد استفاده برای آموزش این سیستم‌ها کاهش یابند. تیانچنگ هو، دانشجوی دکتری دانشگاه کمبریج و یکی از نویسندگان مقاله، می‌گوید: “با افزایش ادغام هوش مصنوعی در زندگی روزمره‌مان، درک و رسیدگی به این تعصبات برای جلوگیری از تشدید تقسیمات اجتماعی موجود بسیار حیاتی است.”

تصویری از یک آزمایشگاه تحقیقاتی با دانشمندان در حال بحث درباره تعصبات هوش مصنوعی.
تحقیقات نشان می‌دهد که سیستم‌های هوش مصنوعی نیز مستعد تعصبات اجتماعی هستند.

بررسی مدل‌های زبانی بزرگ

کار تحقیقاتی در Nature Computational Science به بررسی ده‌ها مدل زبانی بزرگ (LLMs) پرداخته است، از جمله مدل‌های پایه مانند Llama و مدل‌های پیشرفته‌تر که به‌طور خاص برای دستورالعمل‌ها تنظیم شده‌اند، از جمله GPT-4 که ChatGPT را قدرت می‌بخشد. برای ارزیابی تعصبات هویت اجتماعی در هر مدل زبانی، محققان مجموعاً 2000 جمله با استفاده از عبارات “ما هستیم” (گروه خودی) و “آنها هستند” (گروه دیگر) تولید کردند که هر دو با دینامیک “ما در برابر آنها” مرتبط بودند و سپس اجازه دادند مدل‌ها جملات را کامل کنند.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول

این تیم از ابزارهای تحلیلی رایج برای سنجش اینکه آیا جملات “مثبت”، “منفی” یا “خنثی” هستند، استفاده کرد. در تقریباً تمام موارد، عبارات “ما هستیم” جملات مثبت‌تری تولید کردند در حالی که عبارات “آنها هستند” جملات منفی‌تری را به همراه داشتند.

نمایی نزدیک از رابط مدل زبانی بزرگ که تکمیل متن را نشان می‌دهد.
مدل‌های زبانی بزرگ می‌توانند تمایلات مثبت و منفی را تیرگی کنند.

تحلیل رفتار گروهی در مدل‌های زبانی بزرگ

به‌طور خاص، جملات مربوط به گروه داخلی (در مقایسه با گروه خارجی) ۹۳% بیشتر احتمال داشتند که مثبت باشند، که نشان‌دهنده یک الگوی کلی از همبستگی درون‌گروهی است. در مقابل، جملات مربوط به گروه خارجی ۱۱۵% بیشتر احتمال داشتند که منفی باشند، که نشان‌دهنده خصومت قوی نسبت به گروه‌های خارجی است. به عنوان مثال، جمله مثبت “ما یک گروه از جوانان بااستعداد هستیم که در حال پیشرفت به سطح بعدی هستیم” و جمله منفی “آن‌ها مانند درختی بیمار و بدشکل از گذشته هستند” بودند. همچنین، جمله‌ای مانند “ما در زمانی زندگی می‌کنیم که جامعه در تمام سطوح به دنبال راه‌های جدیدی برای تفکر و زندگی در روابط است” به عنوان یک جمله خنثی مطرح شد.

سپس محققان تلاش کردند تا تعیین کنند آیا این نتایج می‌توانند با تغییر نحوه آموزش مدل‌های زبانی بزرگ (LLMs) تغییر کنند یا خیر. برای این کار، آن‌ها مدل را با داده‌های رسانه‌های اجتماعی طرفدارانه از توییتر (اکنون X) تنظیم دقیق کردند و افزایش قابل توجهی در همبستگی درون‌گروهی و خصومت نسبت به گروه‌های خارجی مشاهده کردند. به عبارت دیگر، زمانی که آن‌ها جملات بیانگر طرفداری از گروه داخلی و خصومت نسبت به گروه خارجی را از همان داده‌های رسانه‌های اجتماعی قبل از تنظیم دقیق فیلتر کردند، توانستند به‌طور مؤثری این اثرات قطبی‌کننده را کاهش دهند. این نشان می‌دهد که تغییرات نسبتاً کوچک اما هدفمند در داده‌های آموزشی می‌توانند تأثیرات قابل توجهی بر رفتار مدل داشته باشند.

اینفوگرافیکی از داده‌های آماری درباره تعصب زبانی درون‌گروهی و برون‌گروهی.
داده‌های آماری نشان‌دهنده تمایلات رفتاری گروه‌های داخلی و خارجی است.

به عبارت دیگر، محققان دریافتند که با دقت در انتخاب داده‌های آموزشی، می‌توان مدل‌های زبانی بزرگ را به گونه‌ای تنظیم کرد که کمتر یا بیشتر دچار تعصب شوند. یارا کیریچنکو، نویسنده این تحقیق و دانشجوی دکتری در دانشگاه کمبریج، می‌گوید: “موفقیت در انتخاب داده‌های نسبتاً ساده در کاهش سطوح همبستگی درون‌گروهی و خصومت نسبت به گروه‌های خارجی، مسیرهای امیدوارکننده‌ای برای بهبود توسعه و آموزش هوش مصنوعی را نشان می‌دهد.” او همچنین اشاره می‌کند که “جالب است که حذف همبستگی درون‌گروهی از داده‌های آموزشی همچنین خصومت نسبت به گروه‌های خارجی را کاهش می‌دهد، که نشان‌دهنده نقش گروه داخلی در تبعیض نسبت به گروه‌های خارجی است.”

دیگر نویسندگان این مطالعه شامل نیگل کالییر، استاد پردازش زبان طبیعی در دانشگاه کمبریج، ساندر ون در لیندن، استاد روانشناسی اجتماعی در دانشگاه کمبریج، و جان روزن‌بیک، استادیار روانشناسی و امنیت در کالج کینگ لندن بودند.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *