مجرد سازی فضای حالت با استفاده از تقسیمهای چندمتغیره در یادگیری تقویتی سلسله مراتبی
- رشته تحصیلی
- مهندسی برق-کنترل
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 47370;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1832
- تاریخ دفاع
- ۰۷ مهر ۱۳۸۹
- دانشجو
- زهره مهری
- استاد راهنما
- مسعود اسدپور
- چکیده
- زمان یادگیری و نفرین ابعاد از جمله مشکلاتی هستند که کاربرد یادگیری تقویتی در رباتهای واقعی را محدود میکنند. همچنین محدودیت استفاده از دانش موجود و تفسیرپذیری سختقوانین یادگرفته شده نیز باید به مشکلات بالا اضافه شود. از جمله روشهای استفاده شده برای کاهش زمان یادگیری، سادهسازی فضای حالت با استفاده از تجمیع حالات مشابه است که به آن تجرید حالات گفته میشود. از آنجایی که قوانین یادگیری شده توسط درخت تصمیم از تفسیرپذیری بالایی برخوردارند،در روشهای تجرید حالت برای بالا بردن تفسیر پذیری قوانین یادگیری شده از درخت تصمیم استفاده شده است، که به درک بهتر قوانین برای انسان میانجامد. معمولا گره های درخت تصمیم، فضای حالت را براساس مقدار یک متغیر حالت به دو ابَرمکعب تقسیم میکنند. اینگونه شکست ها به شکستهای تکمتغیره معروفند. در این رساله، روشی جدید برای حل مسئله مجردسازی فضای حالت بهصورت اتوماتیک ارائه شده است که هدف آن، کاهش تعداد تلاش های لازم برای یادگیری، سادهسازی گنجانیدن دانش اولیه عاملو ایجاد قوانین یادگیری مجرد و قابل فهم برای انسان میباشد. در این پایاننامه از درخت تصمیم برای مجردسازی فضای حالت استفاده شده اما برخلاف روشهای موجود سعی شده تصمیمگیری در گرههای درخت براساس یک یا چند متغیر باشد و نه تنها براساس یک متغیر. در این پایاننامه با استفاده از الگوریتم خوشهبندیK-میانگینو نیز روش جداسازی خطیماشین بردار پشتیبان، میکوشیم تا مسائل یادگیری تقویتی را در محیطهای با ابعاد بالا و نیز محیطهای پیوسته حل نماییم. همچنین بجای تولید و ذخیره حجمِ عظیمی از اطلاعات، در این روش مقدار حافظه محدودی برای عامل مورد نیاز است. نتایج شبیهسازیهای انجام شده بر روی سه مسئله دنیای جدولی نه در نه، بالارفتن ماشین از تپه و دنیای گودالی نشان دهنده کارآمدی و برتری روش پیشنهادی در جهت کاهش تعداد حالتهای مجرد، افزایش سرعت یادگیری و افزایش کارآیی قوانین یاد گرفته شده، میباشد.
- Abstract
- The enormous learning time and the curse of dimensionality are the problems which restrict applicability of reinforcement learning on real robots. Moreover, the existing difficulties in using available knowledge and low interpretability of learned rules superimpose the previous problems. As a remedy, state space is simplified by aggregation similar states which are called state abstraction. On the other hand, since in the Decision tree methods the learned rules are intuitive and could easily be understood by human, it has been widely used as a state abstraction method in the literature. In this method, the nodes of the tree always split state space into two hyper cubes based on a feature. This kind of split is called univariate split. In this paper, we address the automatic state abstraction problem which aims at reducing; the number of learning trials, simplifying inclusion of prior knowledge, and creating more abstract and understandable learning rules. Here, in spite of the other methods which use univariate tests, we use omnivariate test as a splitting criterion in decision nodes. We use K-means clustering and Support Vector Machine (SVM) to accomplish the state abstraction in high dimensional and continuous state space. In this method, the agent has a limited memory and stores only some of the experiences. We demonstrate the good performance of our method on three problems in simulation: Grid world, Puddle world and Mountain-car. The simulation results show the number of abstract states and learning time decrease and the effectiveness of learned rules increase.