عنوان پایان‌نامه

یاد گیری کنترل توجه در فضای چند گانه سنسوری در چارچوب POMDP



    دانشجو در تاریخ ۲۰ تیر ۱۳۸۹ ، به راهنمایی ، پایان نامه با عنوان "یاد گیری کنترل توجه در فضای چند گانه سنسوری در چارچوب POMDP" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 45054;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1735
    تاریخ دفاع
    ۲۰ تیر ۱۳۸۹

    سیستم‏های رباتیکی پیچیده‏ی امروزی به استراتژی‏های تصمیم‏گیری کارآمدی به منظور زندگی و اثرگذاری خودکار در دنیای واقعی نیاز دارند. در این میان، میزان اطلاعات دریافتی که برای تصمیم‏گیری از محیط دریافت می‏شود، با رشد روزافزون تعداد سنسورها، افزایش می‏یابد. این در حالی است که به دلیل توان پردازشی محدود، تنها بخشی از اطلاعات دریافتی، مورد بررسی قرار می‏گیرد. مکانیزم‏های توجهی به صورت متوالی مرتبط‏ترین بخش ورودی سنسوری را برای پردازش دقیق و جزئی انتخاب می‏کنند. این مکانیزم‏ها تعیین می‏کنند که وابسته به حالت فعلی عامل در محیط، «کدام» بخش از ورودی سنسوری باید انتخاب گردد، و سپس بر اساس «آنچه» که در آن بخش دریافت می‏شود، «چگونه» باید عمل کرد. در این پژوهش سعی بر این است که با استفاده از دانش قبلی به صورت برون‏خطی استراتژی بهینه‏ی توجه استخراج گردد. به طور دقیق‏تر در این تحقیق، در ابتدا سیاست بهینه‏ی وظیفه یاد گرفته می‏شود و سپس دانش آموخته شده به صورت توزیع احتمال انتخاب اعمال موتوری به منظور گسترش درخت توجه به کار گرفته می‏شود. درخت توجه بر اساس محدودیت‏های گلوگاه اطلاعاتی عامل وقتیکه قیود توجهی وجود دارند، ساخته می‏شود. این کار با استخراج سلسله مراتب گرانولاری روی توزیع احتمال انتخاب اعمال و سپس یافتن مناسب‏ترین ابعاد سنسوری که بیشترین تمایر را بین این گرانولاریتی‏ها ایجاد می‏کند، انجام می‏شود. در این راستا، پس از بررسی ادبیات موجود در زمینه‏ی توجه و بیان ریاضی مسئله‏ی کنترل توجه الگوریتم پیشنهادی خود را شرح می‏دهیم و سپس الگوریتم خود را روی چند مسئله‏ی طراحی شده روی چندین محیط مارپیچ، یک محیط ساده شده‏ی رانندگی در نرم‏افزار ویباتس و پیاده‏سازی روی ربات نائو آزمایش می‏نماییم. نتایج این آزمایش‏ها، صحت و سقم الگوریتم پیشنهادی ما را تایید می‏کند.
    Abstract
    Today’s complex robotic systems require efficient decision making strategies in order to be able to act autonomously in the real world. The amount of perceived information that should be processed for decision making increases along with the growing number of sensors. However, only parts of perceived information can be dealt with due to the limited processing power. In addition, in some states, parts of this input information can be useless, redundant or even misleading in the process of coming to an optimal decision. Attention mechanisms sequentially select the most relevant parts of sensory input for detailed processing. These mechanisms determine, according to the current state of the agent in the environment, which part of the sensory input to be selected and then, based on what is perceived there, how to act next. In this contribution, we assume that for some tasks the optimal policy (decision making) can be learned under fewer restrictions on sensory input processing, i.e. without attention constraints, and these restrictions will be tightened later when attention strategies are required. More specifically, at first, the task's optimal policy is learned and then, the obtained knowledge in the form of action selection probability distributions is exploited to develop the attention-decision tree. The attention-decision tree is built according to the agent's information bottleneck constraints when attention restrictions are present. This is done by extracting the hierarchical granular structure in action selection probability distributions and then finding the most suitable sensory dimensions that provides the best discrimination among those granularities. The proposed algorithm is verified through a set of simulations on some simple maze environments, a simplified car driving task in Webots and a robot implementation on Nao robot.