عنوان پایاننامه
یاد گیری کنترل توجه در فضای چند گانه سنسوری در چارچوب POMDP
- رشته تحصیلی
- مهندسی کامپیوتر-هوش مصنوعی- رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 45054;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1735
- تاریخ دفاع
- ۲۰ تیر ۱۳۸۹
- دانشجو
- نرگس نوری
- استاد راهنما
- مجید نیلی احمدآبادی, بابک نجاراعرابی
- چکیده
- سیستمهای رباتیکی پیچیدهی امروزی به استراتژیهای تصمیمگیری کارآمدی به منظور زندگی و اثرگذاری خودکار در دنیای واقعی نیاز دارند. در این میان، میزان اطلاعات دریافتی که برای تصمیمگیری از محیط دریافت میشود، با رشد روزافزون تعداد سنسورها، افزایش مییابد. این در حالی است که به دلیل توان پردازشی محدود، تنها بخشی از اطلاعات دریافتی، مورد بررسی قرار میگیرد. مکانیزمهای توجهی به صورت متوالی مرتبطترین بخش ورودی سنسوری را برای پردازش دقیق و جزئی انتخاب میکنند. این مکانیزمها تعیین میکنند که وابسته به حالت فعلی عامل در محیط، «کدام» بخش از ورودی سنسوری باید انتخاب گردد، و سپس بر اساس «آنچه» که در آن بخش دریافت میشود، «چگونه» باید عمل کرد. در این پژوهش سعی بر این است که با استفاده از دانش قبلی به صورت برونخطی استراتژی بهینهی توجه استخراج گردد. به طور دقیقتر در این تحقیق، در ابتدا سیاست بهینهی وظیفه یاد گرفته میشود و سپس دانش آموخته شده به صورت توزیع احتمال انتخاب اعمال موتوری به منظور گسترش درخت توجه به کار گرفته میشود. درخت توجه بر اساس محدودیتهای گلوگاه اطلاعاتی عامل وقتیکه قیود توجهی وجود دارند، ساخته میشود. این کار با استخراج سلسله مراتب گرانولاری روی توزیع احتمال انتخاب اعمال و سپس یافتن مناسبترین ابعاد سنسوری که بیشترین تمایر را بین این گرانولاریتیها ایجاد میکند، انجام میشود. در این راستا، پس از بررسی ادبیات موجود در زمینهی توجه و بیان ریاضی مسئلهی کنترل توجه الگوریتم پیشنهادی خود را شرح میدهیم و سپس الگوریتم خود را روی چند مسئلهی طراحی شده روی چندین محیط مارپیچ، یک محیط ساده شدهی رانندگی در نرمافزار ویباتس و پیادهسازی روی ربات نائو آزمایش مینماییم. نتایج این آزمایشها، صحت و سقم الگوریتم پیشنهادی ما را تایید میکند.
- Abstract
- Today’s complex robotic systems require efficient decision making strategies in order to be able to act autonomously in the real world. The amount of perceived information that should be processed for decision making increases along with the growing number of sensors. However, only parts of perceived information can be dealt with due to the limited processing power. In addition, in some states, parts of this input information can be useless, redundant or even misleading in the process of coming to an optimal decision. Attention mechanisms sequentially select the most relevant parts of sensory input for detailed processing. These mechanisms determine, according to the current state of the agent in the environment, which part of the sensory input to be selected and then, based on what is perceived there, how to act next. In this contribution, we assume that for some tasks the optimal policy (decision making) can be learned under fewer restrictions on sensory input processing, i.e. without attention constraints, and these restrictions will be tightened later when attention strategies are required. More specifically, at first, the task's optimal policy is learned and then, the obtained knowledge in the form of action selection probability distributions is exploited to develop the attention-decision tree. The attention-decision tree is built according to the agent's information bottleneck constraints when attention restrictions are present. This is done by extracting the hierarchical granular structure in action selection probability distributions and then finding the most suitable sensory dimensions that provides the best discrimination among those granularities. The proposed algorithm is verified through a set of simulations on some simple maze environments, a simplified car driving task in Webots and a robot implementation on Nao robot.