عنوان پایان‌نامه

مجرد سازی فضای حالت با استفاده از تقسیمهای چندمتغیره در یادگیری تقویتی سلسله مراتبی



    دانشجو در تاریخ ۰۷ مهر ۱۳۸۹ ، به راهنمایی ، پایان نامه با عنوان "مجرد سازی فضای حالت با استفاده از تقسیمهای چندمتغیره در یادگیری تقویتی سلسله مراتبی" را دفاع نموده است.


    رشته تحصیلی
    مهندسی برق‌-کنترل‌
    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 47370;کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1832
    تاریخ دفاع
    ۰۷ مهر ۱۳۸۹
    دانشجو
    زهره مهری
    استاد راهنما
    مسعود اسدپور

    زمان یادگیری و نفرین ابعاد از جمله مشکلاتی هستند که کاربرد یادگیری تقویتی در ربات‌های واقعی را محدود می‌کنند. همچنین محدودیت استفاده از دانش موجود و تفسیرپذیری سختقوانین یادگرفته شده نیز باید به مشکلات بالا اضافه شود. از جمله روش‌های استفاده شده برای کاهش زمان یادگیری، ساده‌سازی فضای حالت با استفاده از تجمیع حالات مشابه است که به آن تجرید حالات گفته ‌می‌شود. از آنجایی که قوانین یادگیری شده توسط درخت تصمیم از تفسیرپذیری بالایی برخوردارند،در روش‌های تجرید حالت برای بالا بردن تفسیر پذیری قوانین یادگیری شده از درخت تصمیم استفاده شده است، که به درک بهتر قوانین برای انسان می‌انجامد. معمولا گره‌ های درخت تصمیم، فضای حالت را بر‌اساس مقدار یک متغیر حالت به دو ابَر‌مکعب تقسیم می‌کنند. این‌گونه شکست ‌ها به شکست‌های تک‌متغیره معروفند. در این رساله، روشی جدید برای حل مسئله مجردسازی فضای حالت به‌صورت اتوماتیک ارائه شده است که هدف آن، کاهش تعداد تلاش‌ های لازم برای یادگیری، ساده‌سازی گنجانیدن دانش اولیه عاملو ایجاد قوانین یادگیری مجرد و قابل فهم برای انسان می‌باشد. در این پایان‌نامه از درخت تصمیم برای مجردسازی فضای حالت استفاده شده اما برخلاف روش‌های موجود سعی شده تصمیم‌گیری در گره‌های درخت براساس یک یا چند متغیر باشد و نه تنها براساس یک متغیر. در این پایان‌نامه با استفاده از الگوریتم‌ خوشه‌بندیK-میانگینو نیز روش جداسازی خطیماشین بردار پشتیبان، می‌کوشیم تا مسائل یادگیری تقویتی را در محیط‌های با ابعاد بالا و نیز محیط‌های پیوسته حل نماییم. همچنین بجای تولید و ذخیره حجمِ عظیمی از اطلاعات، در این روش مقدار حافظه محدودی برای عامل مورد نیاز است. نتایج شبیه‌سازی‌های انجام شده بر روی سه مسئله دنیای جدولی نه در نه، بالارفتن ماشین از تپه و دنیای گودالی نشان دهنده کارآمدی و برتری روش پیشنهادی در جهت کاهش تعداد حالت‌های مجرد، افزایش سرعت یادگیری و افزایش کارآیی قوانین یاد گرفته شده، می‌باشد.
    Abstract
    The enormous learning time and the curse of dimensionality are the problems which restrict applicability of reinforcement learning on real robots. Moreover, the existing difficulties in using available knowledge and low interpretability of learned rules superimpose the previous problems. As a remedy, state space is simplified by aggregation similar states which are called state abstraction. On the other hand, since in the Decision tree methods the learned rules are intuitive and could easily be understood by human, it has been widely used as a state abstraction method in the literature. In this method, the nodes of the tree always split state space into two hyper cubes based on a feature. This kind of split is called univariate split. In this paper, we address the automatic state abstraction problem which aims at reducing; the number of learning trials, simplifying inclusion of prior knowledge, and creating more abstract and understandable learning rules. Here, in spite of the other methods which use univariate tests, we use omnivariate test as a splitting criterion in decision nodes. We use K-means clustering and Support Vector Machine (SVM) to accomplish the state abstraction in high dimensional and continuous state space. In this method, the agent has a limited memory and stores only some of the experiences. We demonstrate the good performance of our method on three problems in simulation: Grid world, Puddle world and Mountain-car. The simulation results show the number of abstract states and learning time decrease and the effectiveness of learned rules increase.