عنوان پایان‌نامه

مجرد سازی فضای حالت به صورت چند متغیره برای یادگیری تقویتی در محیط غیر ساکن



    دانشجو در تاریخ ۱۳ مهر ۱۳۹۰ ، به راهنمایی ، پایان نامه با عنوان "مجرد سازی فضای حالت به صورت چند متغیره برای یادگیری تقویتی در محیط غیر ساکن" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1939;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49826
    تاریخ دفاع
    ۱۳ مهر ۱۳۹۰
    استاد راهنما
    مسعود اسدپور

    در یادگیری تقویتی با فضای حالت پیوسته از روش‌های معمول برای یادگیری ارزش حالت‌ها در فضا نمی‌توان استفاده کرد. بنابراین باید به دنبال روشی برای مجردسازی فضای حالت بود. در این تحقیق از درخت‌های تصمیم‌گیری برای مجردسازی حالت استفاده شده است. روش‌های پیشین همگی از درخت‌های تک‌متغیره برای شکستن فضا استفاده می‌کنند. اما مسائلی در یادگیری تقویتی وجود دارند که در آنها مفاهیم زیرین موجود در فضا، ساختاری دارند که به راحتی با درخت‌های تصمیم‌گیری تک‌متغیره قابل نمایش دادن نیستند و درخت‌های تک‌متغیره این مفاهیم موجود در فضا را با استفاده از ابرمکعب مستطیل تخمین می‌زنند. در این تحقیق دو روش جدید برای ایجاد شکست‌های چند متغیره ارایه شده است. روش اول از درخت اریب برای شکستن برگ‌های درخت استفاده می‌کند. در روش دوم ابتدا داده‌های موجود در برگ‌ها بر چسب خورده و سپس از روش‌های موجود در یادگیری تحت نظارت برای ایجاد شکست جدید استفاده می‌شود. مشکل دیگر روش‌های پیشین این است که در این روش‌ها تنظیم آستانه برای شکستن گره‌های درخت بسیار دشوار می‌باشد. در این تحقیق روشی ارائه شده که در آن آستانه شکستن گره تا حد ممکن به نوع معیار شکست کمتر وابسته‌ باشد. در روش‌های ارائه شده تعداد حالت‌های انتزاعی ایجاد شده کاهش یافت و میزان پاداش دریافت شده در مرحله تست بهبود یافت.
    Abstract
    In reinforcement learning, when the dimensionality or the size of the state space increases, the curse of dimensionality necessitates the application of a state abstraction method. One of the methods of dealing with the curse of dimensionality is to utilize decision trees as they provide automatic state abstraction and do not suffer from divergence problems. Existing decision tree state abstraction methods are all based on an original method called U-Tree. The U-Tree method exploits univariate decisiontrees to partition the state space imposing hyper-rectangular partitions. There are some problem domains in which the underlying concepts are not hyper-rectangular and may have any arbitrary shape. In these domains, univariate decision trees try to approximate these concepts using hyper-rectangular partitions. As a consequence, either the number of the decision tree leaves increases or the accuracy of the decision tree decreases. Two new methods to improve the performance of decision tree state abstraction are proposed. The first method uses support vector machines to split the leaf nodes of the tree and the second method attempts to use oblique decision trees to split the leaf node of the tree. Results in both methods show significant improvements in decreasing the number of abstract states and increasing the average reward in the test phase. It is also very difficult for the agent designer to find the best threshord to split an internal node of the tree which is another shortcomming of the existing methods. In this research project, we have tried to solve this problem by introducing two new methods to decide when to split anode.Our result show significant improvement in number of states and the average reward in the testing phase of learning process.