عنوان پایاننامه
ترکیب یادگیری مبتنی بر مدل تخمینی بر فضای ترکیبی و زیر فضاهای حسی
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3141;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79848;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3141;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79848
- تاریخ دفاع
- ۳۰ دی ۱۳۹۴
- دانشجو
- مریم هاشم زاده بارورز
- استاد راهنما
- مجید نیلی احمدآبادی
- چکیده
- مشکل اصلی یادگیری تقویتی کندی سرعت رسیدن به سیاست بهینه است. این امر موجب کاهش کل پاداش دریافتی عامل و افزایش میزان پشیمانی در طول یادگیری میگردد. هدف اصلی این پژوهش یافتن راه حلی برای کاهش تعداد تجربههای لازم هنگام یادگیری عامل و به دنبال آن کاهش میزان خسارت در حین یادگیری است. یکی از دلایل اصلی کندی سرعت در روشهای یادگیری مربوط به محیطهای گسسته، عدم قدرت تعمیم تجربههای عامل است. میتوان بر اساس تجربههای عامل مدل تخمینی محیط (مدل درونی) را ساخت و ارزش هر وضعیت-کنش را با استفاده از آنها تخمین زد. ما سعی داریم راهکاری جهت افزودن قابلیت تعمیم به یادگیری مبتنی بر مدل تخمینی (درونی) ارائه دهیم. در این تحقیق قابلیت تعمیم با استفاده از مدل محیط در زیر فضاهای حسی (زیرمجموعههایی از ویژگیهای محیط) حاصل میگردد. در الگوریتم «ترکیب یادگیری مبتنی بر مدل درونی در فضای ترکیبی و زیرفضاها» عامل هم مدل تخمینی محیط و هم مدل تخمینی زیرفضاهای حسی را میسازد و بر اساس آنها ارزشها را تخمین میزند. همچنین با در نظر گرفتن نایقینی در مدلهای تخمینی، نایقینی در ارزشها را محاسبه میکند. سپس با ترکیب ارزشهای تخمینی و نایقینی آنها در هر فضای ممکن از محیط، کنشی انتخاب میشود. در واقع ما با بهرهمندی از تعمیم تجربههای زیرفضاها و حمل نایقینی در ارزشهای تخمینی سعی بر افزایش سرعت یادگیری عامل داریم. نتایج شبیهسازی نشان میدهند که این روش نه تنها از یک روش مبتنی بر مدل درونی بلکه از روشهای مبتنی بر عادت نیز به جز چند توالی اول سرعت بیشتری دارد. نکته جالب توجه این است که در محیطهای پیچیده چون مدل محیط اهمیت بیشتری دارد، سرعت یادگیری الگوریتم پیشنهادی بیشتر پیشی میگیرد. همچنین نتایج نشان میدهد که روش ما قادر است از حسگرهای افزونه (حسگر با اطلاعات اضافی) که موجب تعمیم دانش میشوند، به صورت خودکار استفاده کند و سرعت یادگیری را به شدت بهبود بخشد. بدین ترتیب از میزان پشیمانی عامل در حین یادگیری کاسته میشود. همچنین در نهایت اثبات میکنیم که این الگوریتم به سیاست بهینه نیز همگرا میشود.
- Abstract
- The main problem of reinforcement learning is slow speed of reaching to the optimal policy. This leads to decreasing total reward of learning agent and increasing its regret. The main goal of this research is finding a solution to cut down on the number of learning agent’s experiences, and therefore, the amount of regret during learning. One of the substantial reasons of slow speed of learning methods in discrete environments is inability of agent to spatially generalize its experiences. By using agent’s experiences during learning process, we can build an estimated model of the environment (the Internal Model) and estimate value of each state-action based on the model. Here, we offer a solution to add the generalization ability to the Internal Model based learning. It is obtained by using the model of environment in sensory sub-spaces (subsets of environment features). In the presented algorithm, called “combination of Internal Model based Learning in joint-space and sub-spaces”, the agent builds both the estimated model of environment and the estimated model of sensory sub-spaces and calculates the values based on them. Also, considering uncertainty in the estimated models, the agent calculates the uncertainty of the values. Then, through combining the estimated values and their uncertainties in each possible projection of the environment, the agent chooses an action. By doing so, the agent attempts to speed its learning through generalization of its experiences in the sub-spaces and carrying out the uncertainty in the estimated values. The simulation results show that this method is faster than not only the internal model based learning but also than model free learning, except in some first episodes. The interesting point is that the learning speed of suggested algorithm goes higher in complex environment. In addition the results show that our method is able to automatically use redundant sensors (sensor with additional information) which generalize the knowledge, to speed up learning further. This research proves that this algorithm can reach the optimal policy. Keywords: Reinforcement learning, Minimization of regret, Model estimation, Internal Model based learning, Generalization of experience in the subspaces, Carrying uncertainty in values.