عنوان پایان‌نامه

یک روش نموی برای یکپارچه سازی اطلاعات سیستم سنسوری چند حسی



    دانشجو در تاریخ ۲۱ تیر ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "یک روش نموی برای یکپارچه سازی اطلاعات سیستم سنسوری چند حسی" را دفاع نموده است.


    دانشجو
    پدرام داعی
    استاد راهنما
    مجید نیلی احمدآبادی
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2467;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 63590
    تاریخ دفاع
    ۲۱ تیر ۱۳۹۳

    ترکیب اطلاعات سنسوری در انسان‌ یکی از فرایند‌‌های پیچیده‌ی مغز است که در دهه‌ی اخیر به شدت مورد توجه ادبیات علوم شناختی بوده است. از طرفی دیگر، عامل‌های مصنوعی نیز همواره با چالش ترکیب جریان‌های ورودی سنسوری خود رو‌به رو هستند. در بخش اول این پایان‌نامه فرایند ترکیب سنسوری را به عنوان یک مساله‌ی یادگیری تقویتی تک‌مرحله‌ای با هدف بیشینه کردن پاداش دریافتی مدل می‌کنیم. با به‌کارگیری فاصله‌های اطمینان بر روی متوسط پاداش دریافتی به ارائه‌ی یک تست آماری می‌پردازیم که از میان سنسور‌های تکی و فضای ترکیب سنسور‌ها، یکی را به عنوان منبع اصلی برای تصمیم‌گیری انتخاب می‌کند. تست ارائه‌شده این ویژگی را دارد که با توجه به مقدار تجربه‌های یادگیری، رفتار خود را تغییر دهد و در عمل می‌توان آن را یک روش انتخاب پویای زیرفضا‌ها برای تصمیم‌گیری در چارچوب یادگیری تعاملی دانست. پیاده‌سازی روش در یک محیط شبیه‌سازی مربوط به آزمایش‌های رفتاری انسان‌ها نشان می‌دهد که روش در اوایل زندگی به زیر‌فضا‌های سنسوری (تک سنسور‌ها) و در زمان بلوغ به ترکیب اطلاعات سنسوری برای تصمیم‌گیری روی می‌آورد. نتایج دو آزمایش شبیه‌سازی نشان‌دهنده‌ی این هستند که این رفتار لازمه‌ی داشتن یک زندگی پر پاداش در مسائلی که عامل زندگی‌اش را بدون هیچ اطلاعاتی پیشینی شروع می‌کند، است. عملکرد روش ما مطابق با مشاهدات رفتاری انسان‌ در آزمایش‌های چندسنسوری است که بیان‌گر این موضو‌ع هستند که انسان‌ها در سنین کودکی بر اساس تک سنسور‌ها تصمیم‌ می‌گیرند در‌حالی که در بزرگسالی به ترکیب اطلاعات می‌پردازند. بر پایه‌ی نتایج بدست آمده ما این فرضیه را بیان می‌کنیم که گذر از انتخاب سنسوری در کودکی به ترکیب سنسوری در بزرگسالی ناشی از یک هدف، و آن بیشینه کردن پاداش و افزایش سرعت یادگیری است. دستاورد دوم این پایان‌نامه ترکیب ایده‌ی ما در یادگیری تک مرحله‌ای با روش یادگیری مونته کارلو برای رسیدن به یک روش یادگیری چندسنسوری چند‌مرحله‌ای است. روش ارائه شده این توانایی را دارد که از قابلیت‌های یاد‌گرفته شده در تک‌تک سنسور‌هایش بهره ببرد و سرعت یادگیری و متوسط پاداش دریافتی در اوایل زندگی خود را بهبود ببخشد. این تئوری را در مساله هدف‌یابی یک ربات در محیط شبیه‌سازی بررسی کردیم و مشاهده شد که ربات در اوایل زندگی‌ برخی از رفتارهای پایه‌ای که به کیفیت زندگی کمک می‌کنند را بر اساس زیر‌فضا‌های سنسوری به طور خودکار یاد می‌گیرد. همچنین نمودار‌های پاداش نشان‌دادند که در اوایل یادگیری روش ما حدودا 20 درصد از روش مونته‌کارلو سریع‌تر عمل می‌کند.
    Abstract
    multisensory integration in humans and needless to say that multimodal sensory data integration is one of the most important and complex, but not sufficiently explained, capabilities of the brain. In the first part of this thesis, we model the problem of sensory integration as a single-step reinforcement learning problem without making any prior assumptions about the sensory models. In this framework, learning in every modality and in their joint space is done in parallel. A simple statistical test on confidence intervals on the mean of reward distributions is used to select the most informative source of information among the individual modalities and the joint space. The proposed test has the ability to adapt its behavior in different stages of learning and in essence, it can be thought of as a dynamic subspace selection method for decision making in interactive learning frameworks. The simulation results on a multimodal localization task show that the learning system autonomously starts with sensory selection and gradually switches to sensory integration. Our results indicate that for an agent who starts its life in a tabula rasa state, this transition is the seemingly optimal behavior. This behavior is also compatible with the empirical findings about humans. Experimental data indicate that children do not integrate sensory information and make their judgments based only on one sensor, whereas adults use multisensory integration for their decision making. Based on these findings, we suggest that sensory selection and integration are emergent behavior and both are outputs of a single reward maximization process. In the second part of this thesis, we combine the proposed idea for single-step learning to on-policy Monte Carlo learning method. The resulting algorithm is a general multi-step multisensory reinforcement learning method. The extended method has the ability to exploit the learned behavior in subspaces. This results in faster learning and higher rewards especially in the initial stages of learning. We test this idea in a grid world problem. It is shown that the agent autonomously learns a basic behavior in a sensory subspace i.e. object avoidance behavior in IR subspace. Our results show that this subspace selection improves the average reward up to 20% during initial episodes, compared to the normal Monte Carlo learning.