عنوان پایان‌نامه

طراحی یک سیستم یادگیری توزیع شده با منابع پاداش متعدد



    دانشجو در تاریخ ۱۴ اسفند ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "طراحی یک سیستم یادگیری توزیع شده با منابع پاداش متعدد" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2229;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 57865
    تاریخ دفاع
    ۱۴ اسفند ۱۳۹۱

    مسائل یادگیری و تصمیم گیری در دنیای واقعی بسیار پیچیده تر از آن هستند که بتوان آن ها را با روش های موجود در یادگیری و به ویژه یادگیری تقویتی، که شواهدی از آن ها در یادگیری انسان ها مشاهده شده، مدل سازی نمود. به همین خاطر این روش ها نیازمند تغییراتی در جهت بهبود این مدل ها هستند. در این پژوهش، یک زیرمجموعه از این گونه مسائل انتخاب شده اند که به یادگیری و تصمیم گیری بهینه در شرایطی می پردازند که بیش از یک نقاد برای ارزیابی رفتار عامل یادگیر وجود داشته باشد. در این حالت، عامل با وزن متفاوتی به هر نقاد اهمیت می دهد و این درجه اهمیت در طول زمان قابل تغییر است. در این پژوهش، برای حل این مسئله یک ساختار توزیع شده در نظر گرفته شده است که به ازای هر نقاد، یک یادگیر مستقل وجود دارد. پس از آن یک الگوریتم تصحیح به صورت ترکیبی از یادگیری مبتنی بر مدل و مستقل از مدل برای تغییر مقادیر ارزش به کار می رود. این الگوریتم مقادیر جداول حاصل از یادگیری مستقل از مدل را بر اساس وزن های کنونی نقادها و با پارامترهای به دست آمده از بخش مبتنی بر مدل تصحیح می کند تا سیاست ترکیبی مطلوب به دست آید. نشان می دهیم که استفاده از این روش پیشنهادی در مسائلی که فضای حالت کنش در آن ها یک گراف جهت دار بدون دور باشد، با سیاست بهینه در یک سیستم مرکزی که از جمع وزن دار پاداش ها برای یادگیری استفاده می کند معادل است. علاوه بر این، این رویکرد نسبت به روشی مانند تقریب تکراری تابع ارزش، از منظر پیچیدگی زمانی بهتر عمل می کند. در نتیجه، کنترل رفتار به شکل تطبیقی و بدون نیاز به یادگیری مجدد در صورت تغییر وزن ها انجام می شود.
    Abstract
    The complex and dynamic character of real world problems needs a remarkable enhancement for reinforcement learning methods to be more applicable in the modeling of behaviors in such environments. In this work, we considered a subset of these types of problems which is learning and making the optimal decision when there is more than one critic. In this case, the agent attends to various critics with different importance according to its personal motivation. These weights are subject to change during the agent's life. We proposed a distributed architecture which considers a distinct learner for each critic. Afterwards, a correction algorithm, as a combination of model-free and model-based learning methods, is applied to the obtained Q-tables. This algorithm is used to correct the values from the model-free part based on the current importance of critics, and the learned parameters from the model-based part. We showed that the result of using this method is optimal in all the problems which their state space is directed acyclic graph. In addition, it works efficiently in comparison to value iteration method, from the time complexity perspective. As a result, the control of behavior will be adaptive and without repetitive learning when the weight of critics changes.