عنوان پایاننامه
مجرد سازی فضای حالت به صورت چند متغیره برای یادگیری تقویتی در محیط غیر ساکن
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1939;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49826
- تاریخ دفاع
- ۱۳ مهر ۱۳۹۰
- دانشجو
- حسین بشاشتی سقزچی
- استاد راهنما
- مسعود اسدپور
- چکیده
- در یادگیری تقویتی با فضای حالت پیوسته از روشهای معمول برای یادگیری ارزش حالتها در فضا نمیتوان استفاده کرد. بنابراین باید به دنبال روشی برای مجردسازی فضای حالت بود. در این تحقیق از درختهای تصمیمگیری برای مجردسازی حالت استفاده شده است. روشهای پیشین همگی از درختهای تکمتغیره برای شکستن فضا استفاده میکنند. اما مسائلی در یادگیری تقویتی وجود دارند که در آنها مفاهیم زیرین موجود در فضا، ساختاری دارند که به راحتی با درختهای تصمیمگیری تکمتغیره قابل نمایش دادن نیستند و درختهای تکمتغیره این مفاهیم موجود در فضا را با استفاده از ابرمکعب مستطیل تخمین میزنند. در این تحقیق دو روش جدید برای ایجاد شکستهای چند متغیره ارایه شده است. روش اول از درخت اریب برای شکستن برگهای درخت استفاده میکند. در روش دوم ابتدا دادههای موجود در برگها بر چسب خورده و سپس از روشهای موجود در یادگیری تحت نظارت برای ایجاد شکست جدید استفاده میشود. مشکل دیگر روشهای پیشین این است که در این روشها تنظیم آستانه برای شکستن گرههای درخت بسیار دشوار میباشد. در این تحقیق روشی ارائه شده که در آن آستانه شکستن گره تا حد ممکن به نوع معیار شکست کمتر وابسته باشد. در روشهای ارائه شده تعداد حالتهای انتزاعی ایجاد شده کاهش یافت و میزان پاداش دریافت شده در مرحله تست بهبود یافت.
- Abstract
- In reinforcement learning, when the dimensionality or the size of the state space increases, the curse of dimensionality necessitates the application of a state abstraction method. One of the methods of dealing with the curse of dimensionality is to utilize decision trees as they provide automatic state abstraction and do not suffer from divergence problems. Existing decision tree state abstraction methods are all based on an original method called U-Tree. The U-Tree method exploits univariate decisiontrees to partition the state space imposing hyper-rectangular partitions. There are some problem domains in which the underlying concepts are not hyper-rectangular and may have any arbitrary shape. In these domains, univariate decision trees try to approximate these concepts using hyper-rectangular partitions. As a consequence, either the number of the decision tree leaves increases or the accuracy of the decision tree decreases. Two new methods to improve the performance of decision tree state abstraction are proposed. The first method uses support vector machines to split the leaf nodes of the tree and the second method attempts to use oblique decision trees to split the leaf node of the tree. Results in both methods show significant improvements in decreasing the number of abstract states and increasing the average reward in the test phase. It is also very difficult for the agent designer to find the best threshord to split an internal node of the tree which is another shortcomming of the existing methods. In this research project, we have tried to solve this problem by introducing two new methods to decide when to split anode.Our result show significant improvement in number of states and the average reward in the testing phase of learning process.