عنوان پایان‌نامه

استفاده از الگوریتم یادگیری تقویتی چند عامله برای کنترل ترافیک یک شریان



    دانشجو در تاریخ ۰۹ مرداد ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "استفاده از الگوریتم یادگیری تقویتی چند عامله برای کنترل ترافیک یک شریان" را دفاع نموده است.


    رشته تحصیلی
    مهندسی برق‌-کنترل‌
    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E2062;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 53553;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2062
    تاریخ دفاع
    ۰۹ مرداد ۱۳۹۱
    استاد راهنما
    اشکان رحیمی کیان

    در این پایان¬نامه بعد از مرور مقدمات سیستم¬های حمل¬ونقل و تعریف مفاهیم اولیه، طراحی کنترل¬کننده ترافیک برای یک شریان به عنوان هدف اصلی در نظر گرفته شده است. به دلیل وجود دینامیک و نایقینی بسیار در سیستم¬های ترافیکی، مدل سازی دقیق آن به خصوص در مورد تقاطعها چندان آسان نیست. بنابراین رویکردی که بتواند عمل کنترل را بدون احتیاج به دانستن مدل محیط انجام دهد، منطقی و کاربردی به نظر می¬رسد. توانایی نشان دادن عملکرد مناسب برای شرایط گوناگون در روزهای مختلف، یکی از عوامل بسیار مهم در کاربردهای عملی می¬باشد. در این پایان¬نامه با نشان دادن ضعف ذاتی روش¬های متداول یادگیری تقویتی در ارائه عملکردی مناسب در شرایطی که به اندازه کافی دیده نشده، رویکرد یادگیری تقویتی پیوسته برای رفع این مشکل معرفی گردیده است. از دیگر مزیت¬های رویکرد پیوسته می¬توان به توانایی بالابردن ابعاد فضای وضعیت عامل بی آنکه تعداد وضعیت¬ها خیلی زیاد شود، اشاره کرد. به همین دلیل می¬توان مشخصات بیشتری از محیط را در تصمیم¬گیری¬های عامل دخیل کرد تا به جواب بهتری دست پیدا نمود. همچنینی استفاده از دانش عامل ها در محیط یادگیری برای افزایش سرعت یادگیری و کارایی سیستم در قالب یادگیری تقویتی چند عامله دیده شده است. نتایج به¬دست آمده از شبیه¬سازی¬ها، همگی نشانگر برتری روش یادگیری تقویتی پیوسته نسبت به دیگر روش¬های یادگیری تقویتی گسسته بوده است. همچنین استفاده از دیدگاه یادگیری تقویتی چند عامله توانسته ارتباط معنا داری بین عملکرد کنترلر های محلی برقرار نماید به طوری که بر خلاف کارهای قبلی که دیدگاه محلی به عنوان افق دید کنترلر ها در نظر گرفته شده است، یک دید جامع به شبکه به عنوان هدف هر کنترلر در نظر گرفته شده است. علاوه بر این، توانایی تعمیم الگوریتم استفاده شده در شرایط دیده نشده که در شبیه سازی¬ها نیز نشان دهده شده است، به عنوان یکی از نکات مهم در عملی بودن استفاده از این روش کنترلی در شرایط شبیه واقعی است. استفاده از تعریف جدید از فضای وضعیت- عمل برای عامل باعث بهبود عملکرد الگوریتم یادگیری شده است که نتایج آن با استفاده از سناریوهای مختلف مورد ارزیابی قرار گرفته است. ادعا می¬شود که روش یادگیری تقویتی پیوسته ارائه شده در این پایان¬نامه ، برخلاف دیگر روش¬های یادگیری پیشین، توانایی بسیار مناسبی برای پیاده¬سازی در عمل دارد. همچنین تعریف جدید از فضای وضعیت عامل می¬تواند بستر مناسبی در انتقال دانش بین عامل¬ها ایجاد نماید که در بسیاری از موارد مانند پس¬زدگی ترافیک و وقوع اغتشاشات باعث بهبود عملکرد کنترلر می¬شود.
    Abstract
    The goal of the author is defining a methodology to control traffic lights in an urban traffic network. High dynamic behaviors and uncertainties in the traffic network make it challenging to define a detailed and accurate dynamic model for traffic network. This challenge will be more complicated in traffic network containing intersections. So, using non model based traffic control methods can be an applicable and reasonable approach in this field. Appropriate performance in a traffic network with uncertainties can be a way to evaluate a traffic signal controller. In this thesis inherent weakness of the convectional reinforcement learning methods operating in unseen conditions has been shown and the continuous reinforcement learning approach has been utilized to solve this weakness. Continuous RL can be considered as an approach to solve curse of dimensionality problem in complex environments. So, by means of Continuous RL we can add more detail of the environment to the state space definition of the Agent that can improve performance of the controller. The results of the simulations show that using continuous RL we can achieve a controlling system with high convergence rate. Also, the final values of convergence show improvement on the controller performance. In addition to the mentioned profits, continuous RL shows a robust behavior dealing with some disturbance in the traffic network such as occurring incidents. On the other hand, Multi-Agent RL has been used to connect agents’ behavior by transferring traffic data between them. So, by this way, we can distribute our view from local intersections to the general network. The results of simulating Cooperative Multi-Agent RL show improvements in fuel consumption, air prolusion production, delay time and travel time on the network. Offering a new definition of the state space of the agents, as a contribution of this thesis, improve the functionality of the previous related works that gives more generalization ability to the controller. Some numerical analysis has been done to show high speed of convergence and the functionality of the controller during learning episodes. In addition, sensitivity analysis has been done to evaluate designed controller’s sensitivity to the variations in the demand function and distance between intersections. By this analysis we can determine the boundaries of definition of the isolated and non-isolated intersections.