عنوان پایان‌نامه

یادگیری از طریق مشاهدات محدود: کاربردی در بازی ایرهاکی



    دانشجو در تاریخ ۱۳ مرداد ۱۳۹۲ ، به راهنمایی ، پایان نامه با عنوان "یادگیری از طریق مشاهدات محدود: کاربردی در بازی ایرهاکی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2261;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 58399
    تاریخ دفاع
    ۱۳ مرداد ۱۳۹۲

    در این پژوهش، هدف اصلی به دست آوردن مدلی از سامانه‌ی بازی ایرهاکی برای استفاده در عامل ایرهاکی می‌باشد. ایرهاکی بازی‌ای رقابتی بین دو بازیکن است که هدف در آن فرستادن دیسک بازی به دروازه‌ی حریف است. عامل‌های ایرهاکی را می‌توان با توجه به استفاده‌ و یا عدم استفاده‌ از مدل سامانه به دو خانواده‌ی عامل‌های مبتنی بر مدل و عامل‌های مستقل از مدل تقسیم نمود. در این پژوهش، با تمرکز بر استفاده از مشاهدات محدود و عدم استفاده از تجهیزات پیچیده، عامل‌های مبتنی بر مدل و مستقل از مدل پیاده شده‌اند. در قدم اول، روشی خودکار برای به دست آوردن ضرایب مدل سامانه ارائه شده است. این روش در محیط شبیه‌سازی ایرهاکی پیاده‌سازی شده است. در ادامه، با توجه به وجود خطا در مدل‌سازی‌های انجام شده، روشی برای یادگیری پیچیدگی‌های فیزیکی سامانه ارائه شده است. اما با توجه به این که یادگیری پایه‌ای مدل سامانه نیازمند تعداد بالایی مشاهده می‌باشد، روش یادگیری ارائه شده برای همگرایی سریعتر از مدل نادقیقی از سامانه استفاده می‌کند. برای این منظور از روش یادگیری گرادیان سیاست استفاده شده که در آن از خطای مشاهده شده در نتیجه‌ی ضربه برای تعریف تابع پاداش مورد انتظار استفاده می‌شود. سپس، روشی بهبود یافته که نیازمند تعداد کمتری مشاهده باشد ارائه می‌شود. در این روش از خطای عمل تولید شده برای تعریف تابع پاداش مورد انتظار استفاده شده است. در انتها، روش‌های ارائه شده در محیط‌ شبیه‌سازی ایرهاکی پیاده‌سازی شده، نتایج به دست آمده مورد مقایسه قرار می‌گیرند. در آخرین گام، سامانه‌ی رباتیکی ایرهاکی برای انجام آزمایشات و تست روشهای پیشنهادی پیاده‌سازی شده است. در پیاده‌سازی این سامانه از یک ربات با دو درجه‌ی آزادی، یک واحد تصویربرداری با نرخ تصویربرداری ?? فریم در ثانیه و یک واحد پردازش استفاده شده است. واحد پردازش با دریافت تصاویر از واحد تصویربرداری مکان و سرعت دیسک بازی را تشخیص داده به تولید مسیر برای ربات ایرهاکی می‌پردازد.
    Abstract
    In this thesis, the main goal is to obtain a system model of the air hockey game to be used by an air hockey playing agent. Air hockey is a table game in which two players try to hit the puck, i.e. air hockey’s ball, to the opponent’s goal. There are two main categories of air hockey playing agents. If the agent uses the system model in its shot planning and prediction, it is called a model based agent, otherwise, a model free agent. In this work, model based and model free agents are designed with the goal of dealing with sparse observations and lack of high speed camera. In the first step, an automatic calibration algorithm is proposed to obtain the system model parameters. This algorithm is implemented in an air hockey simulator environment. Next, in order to obtain a more accurate system model a learning approach is proposed. As learning the system model from scratch is too slow and requires high number of observations, a learning framework is proposed which uses a rough model of the system in the learning process. In this framework, the error in the result of a shot is used for the definition of the reward. Next, an improved method is proposed which uses fewer observations in its learning process. In this method, the error in the computed action is used for the definition of the reward. These methods are implemented in an air hockey simulator and the results are compared. At last, a robotic air hockey system is implemented for testing the proposed methods. This system is consisted of a two-arm robot, a 30fps camera and a processing unit. The processing unit receives images from the camera, calculates the position and velocity of the puck and generates a trajectory for the robot arm.