یک روش نموی برای یکپارچه سازی اطلاعات سیستم سنسوری چند حسی
- دانشجو
- پدرام داعی
- استاد راهنما
- مجید نیلی احمدآبادی
- رشته تحصیلی
- مهندسی کامپیوتر - هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2467;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 63590
- تاریخ دفاع
- ۲۱ تیر ۱۳۹۳
- چکیده
- ترکیب اطلاعات سنسوری در انسان یکی از فرایندهای پیچیدهی مغز است که در دههی اخیر به شدت مورد توجه ادبیات علوم شناختی بوده است. از طرفی دیگر، عاملهای مصنوعی نیز همواره با چالش ترکیب جریانهای ورودی سنسوری خود روبه رو هستند. در بخش اول این پایاننامه فرایند ترکیب سنسوری را به عنوان یک مسالهی یادگیری تقویتی تکمرحلهای با هدف بیشینه کردن پاداش دریافتی مدل میکنیم. با بهکارگیری فاصلههای اطمینان بر روی متوسط پاداش دریافتی به ارائهی یک تست آماری میپردازیم که از میان سنسورهای تکی و فضای ترکیب سنسورها، یکی را به عنوان منبع اصلی برای تصمیمگیری انتخاب میکند. تست ارائهشده این ویژگی را دارد که با توجه به مقدار تجربههای یادگیری، رفتار خود را تغییر دهد و در عمل میتوان آن را یک روش انتخاب پویای زیرفضاها برای تصمیمگیری در چارچوب یادگیری تعاملی دانست. پیادهسازی روش در یک محیط شبیهسازی مربوط به آزمایشهای رفتاری انسانها نشان میدهد که روش در اوایل زندگی به زیرفضاهای سنسوری (تک سنسورها) و در زمان بلوغ به ترکیب اطلاعات سنسوری برای تصمیمگیری روی میآورد. نتایج دو آزمایش شبیهسازی نشاندهندهی این هستند که این رفتار لازمهی داشتن یک زندگی پر پاداش در مسائلی که عامل زندگیاش را بدون هیچ اطلاعاتی پیشینی شروع میکند، است. عملکرد روش ما مطابق با مشاهدات رفتاری انسان در آزمایشهای چندسنسوری است که بیانگر این موضوع هستند که انسانها در سنین کودکی بر اساس تک سنسورها تصمیم میگیرند درحالی که در بزرگسالی به ترکیب اطلاعات میپردازند. بر پایهی نتایج بدست آمده ما این فرضیه را بیان میکنیم که گذر از انتخاب سنسوری در کودکی به ترکیب سنسوری در بزرگسالی ناشی از یک هدف، و آن بیشینه کردن پاداش و افزایش سرعت یادگیری است. دستاورد دوم این پایاننامه ترکیب ایدهی ما در یادگیری تک مرحلهای با روش یادگیری مونته کارلو برای رسیدن به یک روش یادگیری چندسنسوری چندمرحلهای است. روش ارائه شده این توانایی را دارد که از قابلیتهای یادگرفته شده در تکتک سنسورهایش بهره ببرد و سرعت یادگیری و متوسط پاداش دریافتی در اوایل زندگی خود را بهبود ببخشد. این تئوری را در مساله هدفیابی یک ربات در محیط شبیهسازی بررسی کردیم و مشاهده شد که ربات در اوایل زندگی برخی از رفتارهای پایهای که به کیفیت زندگی کمک میکنند را بر اساس زیرفضاهای سنسوری به طور خودکار یاد میگیرد. همچنین نمودارهای پاداش نشاندادند که در اوایل یادگیری روش ما حدودا 20 درصد از روش مونتهکارلو سریعتر عمل میکند.
- Abstract
- multisensory integration in humans and needless to say that multimodal sensory data integration is one of the most important and complex, but not sufficiently explained, capabilities of the brain. In the first part of this thesis, we model the problem of sensory integration as a single-step reinforcement learning problem without making any prior assumptions about the sensory models. In this framework, learning in every modality and in their joint space is done in parallel. A simple statistical test on confidence intervals on the mean of reward distributions is used to select the most informative source of information among the individual modalities and the joint space. The proposed test has the ability to adapt its behavior in different stages of learning and in essence, it can be thought of as a dynamic subspace selection method for decision making in interactive learning frameworks. The simulation results on a multimodal localization task show that the learning system autonomously starts with sensory selection and gradually switches to sensory integration. Our results indicate that for an agent who starts its life in a tabula rasa state, this transition is the seemingly optimal behavior. This behavior is also compatible with the empirical findings about humans. Experimental data indicate that children do not integrate sensory information and make their judgments based only on one sensor, whereas adults use multisensory integration for their decision making. Based on these findings, we suggest that sensory selection and integration are emergent behavior and both are outputs of a single reward maximization process. In the second part of this thesis, we combine the proposed idea for single-step learning to on-policy Monte Carlo learning method. The resulting algorithm is a general multi-step multisensory reinforcement learning method. The extended method has the ability to exploit the learned behavior in subspaces. This results in faster learning and higher rewards especially in the initial stages of learning. We test this idea in a grid world problem. It is shown that the agent autonomously learns a basic behavior in a sensory subspace i.e. object avoidance behavior in IR subspace. Our results show that this subspace selection improves the average reward up to 20% during initial episodes, compared to the normal Monte Carlo learning.