عنوان پایاننامه
کنترل هلیکوپتر چهار موتوره با استفاده از یادگیری تقویتی
- رشته تحصیلی
- مهندسی برق-کنترل
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1961;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 50227
- تاریخ دفاع
- ۱۳ مهر ۱۳۹۰
- دانشجو
- امیر فانیان
- استاد راهنما
- مجید نیلی احمدآبادی
- چکیده
- امروزه سیستم¬های عمود پرواز به علت عدم نیاز به فضای زیاد برای برخاستن و نشستن، به شدت مورد توجه قرار گرفته¬اند که هلیکوپتر چهار روتوره یکی از اولین نمونه¬های آن می¬باشد. کنترل¬کننده-های مدل محور استفاده شده برای هلیکوپتر چهار روتوره توانایی انجام مانورهای پیچیده و عدم پذیرش اختلال¬های بزرگ را نداشته¬اند. یکی از عوامل اصلی عدم توانایی انجام مانورهای پیچیده، عدم شناسایی دقیق این نوع هلیکوپتر ذکر شده است. با توجه به دستاوردهای اخیر در علم کنترل و کنترل هوشمند به استفاده از کنترل¬کننده¬های مبتنی بر یادگیری تقویتی فازی برای کنترل هلیکوپتر چهار روتوره روی آوردیم. به صورت تئوریک یکی از مزیت¬های استفاده از یادگیری تقویتی برای کنترل سیستم¬ها، عدم نیاز به مشخص نمودن جزئیات سیستم تحت کنترل می¬باشد زیرا کنترل¬کننده مذکور پس از گذشت زمان و با آزمون و خطا، عکس¬العمل مناسب برای کنترل سیستم در حالات پیش¬بینی نشده را یاد¬ می-گیرد. همچنین مزیت دیگر استفاده از یادگیری تقویتی بهبود عملکرد کنترل¬کننده سیستم طی گذشت زمان و تطابق آن با تغییر شرایط می¬باشد. از طرفی عمده¬ترین مشکلات یادگیری تقویتی در سیستم-هایی که مانند هلیکوپتر دارای فضای حالت بسیار بزرگ می¬باشند طولانی بودن زمان آموزش و عدم وجود اثبات همگرایی می¬باشند که استفاده از تجربیات خبره می¬تواند در بهبود عملکرد کنترل¬¬کننده یادگیر و کاهش چشم¬گیر زمان یادگیری کمک شایانی بنماید. کنترل¬کننده¬هایی که از خبره برای بهبود عملکرد خود بهره می¬گیرند با محدودیت قابلیت تعمیم تجربیات بدست آمده مواجه هستند. در این پایان¬نامه دو روش برای استفاده از تجربیات خبره برای سرعت بخشیدن به همگرایی یادگیری فازی سارسا ارائه می¬نماییم که از یک سو قابلیت تعمیم تجربیات محدود بدست آمده از خبره به حالات مشاهده نشده مجاور را با توجه به طبیعت کنترل¬کننده فازی دارند و از سوی دیگر قابلیت یادگیری عملکرد مطلوب در حالات مشاهده نشده غیر مجاور را با توجه به نظر نقاد بدست می¬آورند. امکان تداوم استفاده از خبره پس از یادگیری فازی سارسا در روش ارائه شده نهایی وجود دارد تا تجربیات خبره در نواحی دیگری از فضای حالت نیز قابل انتقال به کنترل¬کننده باشند. همچنین در صورت عدم پیشرفت مناسب عامل یادگیر پس از گذشت زمان، نمونه عملکرد مطلوب توسط خبره می¬تواند در همگرایی کنترل¬کننده به پاسخ مناسب کمک نماید.
- Abstract
- Vertical takeoff and landing vehicles nowadays have attracted interests as they do not require so much space for takeoff and landing. Quadrotor is one of the very first VTOL vehicles introduced. Model based controllers that have been used to control quadrotors could not reject large disturbances and perform complicated maneuvers. One of the main reasons of such low performance is inaccurate identification of such system. Recent advances in control science and intelligent control encouraged us to use controllers based on fuzzy reinforcement learning for controlling quadrotor. One advantage of using reinforcement learning is that theoretically it is unnecessary to specify the details of the system to be controlled because the controller learns the optimal decision in unseen states as the time passes by with trial and error. Other advantages of using reinforcement learning are adopting the controller to the environment changes and improving its performance over time. Nevertheless some controllers that use reinforcement learning for systems with extremely large state space encounter many problems such as long learning time, lack of convergence proof and etc. Using expert’s experience may lead to better controller performance as well as decreasing learning time. Controllers that use expert to improve their performance may encounter gained experience generalization issues. In this thesis we introduce methods for using expert’s knowledge in fuzzy SARSA learning controller which is capable of generalizing the gained experiences to the neighbor states as well as learning the desired decision based on critic’s reward in other regions of state space. We have introduced the method for using expert’s knowledge even after the agent finishes learning procedure in the case that agent fails to find the optimal decision in a specific region of state space or there is a need for more information from expert in the current region or any other region of state space.