معرفی MovieNet: هوش مصنوعی جدیدی که تصاویر متحرک را مانند مغز انسان درک می‌کند

تصور کنید که یک مدل هوش مصنوعی (AI) وجود دارد که می‌تواند تصاویر متحرک را با ظرافتی مشابه مغز انسان مشاهده و درک کند. اکنون، دانشمندان در مؤسسه تحقیقاتی اسکریپس این امکان را به واقعیت تبدیل کرده و MovieNet را ایجاد کرده‌اند: یک هوش مصنوعی نوآورانه که ویدیوها را به گونه‌ای پردازش می‌کند که شبیه به نحوه تفسیر صحنه‌های واقعی توسط مغز ما در طول زمان است. این مدل هوش مصنوعی، که در مطالعه‌ای منتشر شده در Proceedings of the National Academy of Sciences در تاریخ ۱۹ نوامبر ۲۰۲۴ به تفصیل توضیح داده شده، می‌تواند صحنه‌های متحرک را با شبیه‌سازی نحوه درک دنیای واقعی توسط نورون‌ها یا سلول‌های مغزی، درک کند.

هوش مصنوعی سنتی در شناسایی تصاویر ثابت بسیار موفق است، اما MovieNet روشی جدید را به مدل‌های یادگیری ماشین معرفی می‌کند که به آن‌ها امکان شناسایی صحنه‌های پیچیده و در حال تغییر را می‌دهد. این یک پیشرفت است که می‌تواند زمینه‌هایی از تشخیص پزشکی تا رانندگی خودران را متحول کند، جایی که تشخیص تغییرات ظریف در طول زمان بسیار حیاتی است. MovieNet همچنین از نظر دقت و پایداری محیط نسبت به هوش مصنوعی‌های سنتی برتری دارد.

تحقیقات و یافته‌ها

هالیس کلاین، نویسنده ارشد و مدیر مرکز علوم اعصاب دوریس در اسکریپس، می‌گوید: “مغز فقط تصاویر ثابت را نمی‌بیند؛ بلکه یک روایت بصری پیوسته ایجاد می‌کند.” او ادامه می‌دهد: “شناسایی تصاویر ثابت به پیشرفت‌های زیادی دست یافته است، اما ظرفیت مغز برای پردازش صحنه‌های جاری – مانند تماشای یک فیلم – نیاز به یک نوع بسیار پیشرفته‌تر از شناسایی الگو دارد. با مطالعه نحوه ضبط این توالی‌ها توسط نورون‌ها، ما توانسته‌ایم اصول مشابهی را به هوش مصنوعی اعمال کنیم.”

برای ایجاد MovieNet، کلاین و ماساکی هیراموتو، نویسنده اول و دانشمند ارشد در اسکریپس، بررسی کردند که مغز چگونه صحنه‌های دنیای واقعی را به عنوان توالی‌های کوتاه پردازش می‌کند، مشابه کلیپ‌های فیلم. به‌طور خاص، محققان مطالعه کردند که نورون‌های قورباغه‌های جوان چگونه به محرک‌های بصری پاسخ می‌دهند. هیراموتو توضیح می‌دهد: “قورباغه‌ها سیستم بینایی بسیار خوبی دارند و ما می‌دانیم که آن‌ها می‌توانند به‌طور مؤثری محرک‌های متحرک را شناسایی و به آن‌ها پاسخ دهند.” او و کلاین نورون‌هایی را شناسایی کردند که به ویژگی‌های شبیه به فیلم – مانند تغییرات در روشنایی و چرخش تصویر – پاسخ می‌دهند و می‌توانند اشیاء را در حین حرکت و تغییر شناسایی کنند.

📢 اگر عاشق علم هستید و نمی‌خواهید هیچ مقاله‌ای را از دست بدهید…

به کانال تلگرام ما بپیوندید! تمامی مقالات جدید روزانه در آنجا منتشر می‌شوند.

📲 عضویت در کانال تلگرام
پاپ‌آپ اطلاعیه با اسکرول
صحنه‌ای از یک آزمایشگاه مدرن با دانشمندان که الگوریتم‌های هوش مصنوعی را در حال بررسی تصاویر متحرک نمایش می‌دهند.
تجسم فرآیند پژوهش علمی در آزمایشگاه با استفاده از هوش مصنوعی برای تحلیل تصاویر متحرک.

این نورون‌ها که در ناحیه پردازش بصری مغز به نام تکتوم اپتیک قرار دارند، اجزای یک تصویر متحرک را به یک توالی منسجم جمع‌آوری می‌کنند. این فرآیند را می‌توان به یک پازل لنزیکولار تشبیه کرد: هر قطعه به تنهایی ممکن است بی‌معنی باشد، اما با هم یک تصویر کامل در حال حرکت را تشکیل می‌دهند. نورون‌های مختلف “قطعات پازل” مختلفی از یک تصویر متحرک واقعی را پردازش می‌کنند که مغز سپس آن‌ها را به یک صحنه پیوسته یکپارچه می‌کند.

محققان همچنین دریافتند که نورون‌های تکتوم اپتیک قورباغه‌ها تغییرات ظریف در محرک‌های بصری را در طول زمان تشخیص می‌دهند و اطلاعات را در کلیپ‌های دینامیک حدود ۱۰۰ تا ۶۰۰ میلی‌ثانیه‌ای به جای تصاویر ثابت ضبط می‌کنند. این نورون‌ها به الگوهای نور و سایه بسیار حساس هستند و پاسخ هر نورون به یک قسمت خاص از میدان بصری به ساخت یک نقشه دقیق از یک صحنه کمک می‌کند تا یک “کلیپ فیلم” شکل بگیرد.

توسعه MovieNet: هوش مصنوعی با پردازش شبیه به مغز

کلاین و هیرا موتو، MovieNet را آموزش دادند تا پردازش شبیه‌سازی شده به مغز را انجام دهد و کلیپ‌های ویدیویی را به صورت مجموعه‌ای از نشانه‌های بصری کوچک و قابل شناسایی کدگذاری کند. این امر به مدل هوش مصنوعی این امکان را داد که تفاوت‌های ظریف بین صحنه‌های متحرک را تشخیص دهد.

برای آزمایش MovieNet، محققان کلیپ‌های ویدیویی از قورباغه‌های جوان را در شرایط مختلف به آن نشان دادند. MovieNet نه تنها با دقت 82.3 درصد توانست رفتارهای شنا کردن عادی و غیرعادی را تشخیص دهد، بلکه حدود 18 درصد از توانایی‌های ناظران انسانی آموزش‌دیده نیز پیشی گرفت. این مدل حتی از مدل‌های هوش مصنوعی موجود، مانند GoogLeNet گوگل که تنها 72 درصد دقت داشت، نیز بهتر عمل کرد. کلاین می‌گوید: “اینجا بود که پتانسیل واقعی را دیدیم.”

نمای نزدیک از نورون‌های قورباغه که به محرک‌های بصری در پس‌زمینه‌ای با رنگ‌های زنده پاسخ می‌دهند.
نورون‌های قورباغه‌ در حال پاسخ به محرک‌های بصری، نمایانگر پیوند بین علم اعصاب و هوش مصنوعی.

تیم تحقیقاتی مشخص کرد که MovieNet نه تنها در درک صحنه‌های متغیر از مدل‌های هوش مصنوعی فعلی بهتر عمل می‌کند، بلکه به داده‌ها و زمان پردازش کمتری نیز نیاز دارد. توانایی MovieNet در ساده‌سازی داده‌ها بدون قربانی کردن دقت، آن را از هوش مصنوعی‌های سنتی متمایز می‌کند. با تجزیه اطلاعات بصری به توالی‌های اساسی، MovieNet به طور مؤثری داده‌ها را فشرده می‌کند، به گونه‌ای که می‌توان آن را مانند یک فایل فشرده در نظر گرفت که جزئیات حیاتی را حفظ می‌کند.

علاوه بر دقت بالا، MovieNet یک مدل هوش مصنوعی دوستدار محیط زیست است. پردازش هوش مصنوعی‌های سنتی نیاز به انرژی زیادی دارد و اثرات زیست‌محیطی سنگینی به جا می‌گذارد. نیازهای داده‌ای کمتر MovieNet، گزینه‌ای سبزتر ارائه می‌دهد که در حین عملکرد با استاندارد بالا، صرفه‌جویی انرژی را نیز ممکن می‌سازد. کلاین می‌گوید: “با تقلید از مغز، موفق شدیم هوش مصنوعی خود را به مراتب کمتر از قبل نیازمند کنیم و راه را برای مدل‌هایی هموار سازیم که نه تنها قدرتمند بلکه پایدار هستند.”

او ادامه می‌دهد: “این کارایی همچنین درهای جدیدی را برای گسترش هوش مصنوعی در زمینه‌هایی که روش‌های سنتی هزینه‌بر هستند، باز می‌کند.”

پتانسیل MovieNet در پزشکی

علاوه بر این، MovieNet پتانسیل تغییر در پزشکی را نیز دارد. با پیشرفت این فناوری، ممکن است به ابزاری ارزشمند برای شناسایی تغییرات ظریف در شرایط اولیه تبدیل شود، مانند تشخیص ریتم‌های قلبی نامنظم یا شناسایی اولین نشانه‌های بیماری‌های عصبی-تحلیل‌برنده مانند پارکینسون. به عنوان مثال، تغییرات حرکتی کوچک مرتبط با پارکینسون که معمولاً برای چشم‌های انسانی دشوار است، می‌تواند به‌طور زودهنگام توسط هوش مصنوعی شناسایی شود و زمان ارزشمندی را برای مداخله به پزشکان ارائه دهد.

تصویری که نشان‌دهندهٔ مدل هوش مصنوعی MovieNet در حال پردازش کلیپ‌های ویدیویی و تبدیل آن‌ها به الگوهای قابل تشخیص است.
تجسم بصری از نحوه عملکرد مدل هوش مصنوعی MovieNet در پردازش و تحلیل داده‌های ویدیویی.

علاوه بر این، توانایی MovieNet در درک تغییرات الگوهای شنا کردن قورباغه‌های جوان زمانی که در معرض مواد شیمیایی قرار می‌گیرند، می‌تواند به تکنیک‌های غربالگری دارویی دقیق‌تری منجر شود، زیرا دانشمندان می‌توانند به مطالعه پاسخ‌های سلولی پویا بپردازند به جای اینکه به عکس‌های ایستا تکیه کنند. هیرا موتو می‌گوید: “روش‌های کنونی تغییرات حیاتی را از دست می‌دهند زیرا تنها می‌توانند تصاویری را که در فواصل زمانی ثبت شده‌اند، تحلیل کنند. مشاهده سلول‌ها در طول زمان به MovieNet این امکان را می‌دهد که ظریف‌ترین تغییرات را در حین آزمایش دارو پیگیری کند.”

آینده MovieNet

به جلو نگاه کرده، کلاین و هیرا موتو برنامه دارند تا توانایی MovieNet را برای سازگاری با محیط‌های مختلف بهبود بخشند و تنوع و پتانسیل کاربردهای آن را افزایش دهند. کلاین می‌گوید: “الهام‌گیری از زیست‌شناسی همچنان زمینه‌ای بارور برای پیشرفت هوش مصنوعی خواهد بود. با طراحی مدل‌هایی که مانند موجودات زنده فکر می‌کنند، می‌توانیم به سطوحی از کارایی دست یابیم که به سادگی با رویکردهای سنتی ممکن نیست.”

این کار برای مطالعه “شناسایی نورون‌های کدگذاری فیلم، هوش مصنوعی شناسایی فیلم را ممکن می‌سازد” با حمایت مالی از مؤسسات ملی بهداشت (RO1EY011261، RO1EY027437 و RO1EY031597)، بنیاد خانواده هان و صندوق وقف مرکز علوم اعصاب هارولد ال. دوریس انجام شده است.

مقاله های شبیه به این مقاله

بیشتر بخوانید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *