عنوان پایان‌نامه

ترکیب یادگیری مبتنی بر مدل تخمینی بر فضای ترکیبی و زیر فضاهای حسی



    دانشجو در تاریخ ۳۰ دی ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "ترکیب یادگیری مبتنی بر مدل تخمینی بر فضای ترکیبی و زیر فضاهای حسی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3141;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79848;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3141;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 79848
    تاریخ دفاع
    ۳۰ دی ۱۳۹۴

    مشکل اصلی یادگیری تقویتی کندی سرعت رسیدن به سیاست بهینه است‏. ‎این ‎امر ‎موجب ‎کاهش ‎کل ‎پاداش ‎دریافتی ‎عامل و ‎‎افزایش میزان‎ پشیمانی در طول یادگیری‎ می‌گردد‎. ‎‏هدف‎ اصلی این پژوهش یافتن راه حلی برای کاهش تعداد تجربه‌های لازم هنگام یادگیری عامل و به دنبال آن کاهش میزان خسارت در حین یادگیری است.‎‎ یکی از دلایل اصلی کندی سرعت در روش‌های یادگیری مربوط به محیط‌های گسسته، عدم قدرت تعمیم تجربه‌های عامل است. می‌توان‎ بر اساس تجربه‌های عامل مدل تخمینی محیط (مدل درونی) را ساخت و ارزش‌ هر وضعیت-کنش را با استفاده از آن‌ها تخمین زد. ما سعی داریم راهکاری جهت افزودن قابلیت تعمیم به یادگیری مبتنی بر مدل تخمینی (درونی) ارائه دهیم.‎‎‎‎ در این تحقیق قابلیت تعمیم با استفاده از مدل محیط در زیر فضاها‏ی حسی (زیرمجموعه‌هایی از ویژگی‌های محیط) حاصل می‌گردد. در الگوریتم ‎«‎ترکیب یادگیری مبتنی بر مدل درونی در فضای ترکیبی و زیرفضاها‎»‎‏ عامل هم مدل تخمینی محیط و هم مدل تخمینی زیرفضاهای حسی را می‌سازد ‏و بر اساس آن‌ها ارزش‌ها را تخمین می‌زند. همچنین با در نظر گرفتن نایقینی در مدل‌های تخمینی‏، نایقینی در ارزش‌ها را محاسبه می‌کند. سپس با ترکیب ارزش‌های تخمینی و نایقینی آن‌ها در هر فضای ممکن از محیط‏، کنشی انتخاب می‌شود. در واقع ما با بهره‌مندی از تعمیم تجربه‌های زیرفضاها و حمل نایقینی در ارزش‌های تخمینی سعی بر افزایش سرعت یادگیری عامل داریم. نتایج شبیه‌سازی نشان می‌دهند که این روش ‎نه ‎تنها ‎از ‎یک ‎روش ‎مبتنی ‎بر ‎مدل ‎درونی‎‎ بلکه از روش‌های مبتنی بر عادت نیز به جز چند توالی اول سرعت بیشتری دارد. نکته جالب توجه این است که در محیط‌های پیچیده چون مدل محیط اهمیت بیشتری دارد‏، سرعت یادگیری الگوریتم پیشنهادی بیشتر پیشی می‌گیرد. همچنین نتایج نشان می‌دهد که روش ما قادر است از حسگرهای افزونه (حسگر با اطلاعات اضافی) که موجب تعمیم دانش می‌شوند، به صورت خودکار استفاده کند و سرعت یادگیری را به شدت بهبود بخشد. بدین ترتیب از میزان پشیمانی عامل در حین یادگیری کاسته می‌شود. همچنین در نهایت اثبات می‌کنیم که این الگوریتم به سیاست بهینه نیز همگرا می‌شود.
    Abstract
    The main problem of reinforcement learning is slow speed of reaching to the optimal policy. This leads to decreasing total reward of learning agent and increasing its regret. The main goal of this research is finding a solution to cut down on the number of learning agent’s experiences, and therefore, the amount of regret during learning. One of the substantial reasons of slow speed of learning methods in discrete environments is inability of agent to spatially generalize its experiences. ‎By ‎using agent’s experiences during learning process, we can build an estimated model of the environment (the Internal Model) and estimate value of each state-action based on the model. Here, we offer a solution to add the generalization ability to the Internal Model based learning. ‎It is obtained by using the model of environment in sensory sub-spaces (subsets of environment features). In the presented algorithm, called “combination of Internal Model based Learning in joint-space and sub-spaces”, the agent builds both the estimated model of environment and the estimated model of sensory sub-spaces and calculates the values based on them. Also, considering uncertainty in the estimated models, the agent calculates the uncertainty of the values. Then, through combining the estimated values and their uncertainties in each possible projection of the environment, the agent chooses an action. By doing so, the agent attempts to speed its learning through generalization of its experiences in the sub-spaces and carrying out the uncertainty in the estimated values. The simulation results show that this method is faster than not only the internal model based learning but also than model free learning, except in some first episodes. The interesting point is that the learning speed of suggested algorithm goes higher in complex environment. In addition the results show that our method is able to automatically use redundant sensors (sensor with additional information) which generalize the knowledge, to speed up learning further. This research proves that this algorithm can reach the optimal policy. Keywords: Reinforcement learning, Minimization of regret, Model estimation, Internal Model based learning, Generalization of experience in the subspaces, Carrying uncertainty in values.