عنوان پایاننامه
کنترل جریان ترافیک بزرگراه با استفاده از روشهای یادگیری تقویتی و کنترل پیش بین
- رشته تحصیلی
- مهندسی برق-کنترل
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1925;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49215
- تاریخ دفاع
- ۰۵ شهریور ۱۳۹۰
- دانشجو
- سهیل زنگنه پور
- استاد راهنما
- اشکان رحیمی کیان
- چکیده
- با افزایش روزافزون تقاضا برای حمل و نقل در مسیرهای درون شهری و برون شهری، ازدحام و ترافیک در بزرگراه¬ها یکی از پدیده¬هایی است که هر روزه با آن روبه¬رو هستیم و از آن رنج می¬بریم. از آنجایی که راه¬حل¬های بلند مدت مستلزم سرمایه¬گذاری و فرهنگ¬سازی گسترده است، استفاده از راه¬کارهای کوتاه مدت برای کاهش این مشکل ضروری به نظر می¬رسد. روش¬های گوناگونی تابه¬حال برای بهبود عملکرد بزرگراه¬ها ارائه شده است که در میان آنها کنترل ورودی بزرگراه به عنوان موثرترین و کم¬هزینه¬ترین راه¬کار به شمار می¬رود. در این پایان¬نامه بعد از مرور مقدمات سیستم¬های حمل¬ونقل، سعی بر طراحی کنترل¬کننده ترافیک برای ورودی¬های فرعی بزرگراه بوده است. به دلیل وجود دینامیک و نایقینی بسیار در سیستم¬های ترافیکی، مدل سازی دقیق آن چندان آسان نیست. بنابراین رویکردی که بتواند عمل کنترل را بدون احتیاج به دانستن مدل محیط انجام دهد، منطقی و کاربردی به نظر می¬رسد. توانایی نشان دادن عملکرد مناسب برای شرایط گوناگون در روزهای مختلف، یکی از عوامل بسیار مهم در کاربردهای عملی می¬باشد. در این پایان¬نامه با نشان دادن ضعف ذاتی روش¬های متداول یادگیری تقویتی در ارائه عملکردی مناسب در شرایطی که به اندازه کافی دیده نشده، رویکرد یادگیری تقویتی پیوسته برای رفع این مشکل معرفی گردیده است. از دیگر مزیت¬های رویکرد پیوسته می¬توان به توانایی بالابردن ابعاد فضای وضعیت عامل بی آنکه تعداد وضعیت¬ها خیلی زیاد شود، اشاره کرد. به همین دلیل می¬توان مشخصات بیشتری از محیط را در تصمیم¬گیری¬های عامل دخیل کرد تا به جواب بهتری دست پیدا نمود. نتایج به¬دست آمده از شبیه¬سازی¬ها، همگی نشانگر برتری روش یادگیری تقویتی پیوسته نسبت به دیگر روش¬های کنترلی به خصوص یادگیری تقویتی گسسته بوده است. ادعا می¬شود که روش یادگیری تقویتی پیوسته ارائه شده در این پایان¬نامه، برخلاف دیگر روش-های یادگیری پیشین، توانایی بسیار مناسبی برای پیاده¬سازی در عمل دارد.
- Abstract
- Nowadays, the increasing demand for transportation in urban and highway roads has made the congestion in traffic networks. Many methods have been utilized to improve the performance of a highway traffic network. Among them, ramp metering has known as the most effective, quickest and cheapest solution to relieve congestion. In this thesis after reviewing preliminary concepts of transportation engineering systems, the main aim is to design a controller for the ramp entrance of a sample highway. Due to complexity and effect of human on traffic systems, it is very difficult or even impossible to model this phenomenon exactly. Therefore trying to use model free methods for interacting with these kinds of systems, seems to be logical and practical. In this thesis, it is shown that because of possibility of facing new situations, the ordinary methods of reinforcement learning cannot be implemented in the real world. For solving this problem, we utilized an advanced extension of reinforcement learning (Fuzzy SARSA) that can generalize q-values ofdifferent states of the environment to each other. Therefore, speed of learning process as well as the ability ofhandling new situations is improved significantly. On the other hand, by using continues reinforcement learning, we can increase the state’s dimension of the agent in order to increase the knowledge of the agent and have a decision process more likely to Markov Decision Process. In case of learning with training data and facing completely new situations after learning process, all the simulations showed that proposed continues reinforcement learning have much better performance than the other discrete reinforcement learning methods which is used in the previous works. Considering these facts, we claim that our proposed extension of reinforcement learning can be very useful for applying in the real world problems.