عنوان پایاننامه
یادگیری از طریق مشاهدات محدود: کاربردی در بازی ایرهاکی
- رشته تحصیلی
- مهندسی کامپیوتر-هوش مصنوعی- رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2261;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 58399
- تاریخ دفاع
- ۱۳ مرداد ۱۳۹۲
- دانشجو
- حسام علیزاده تالارپشتی
- استاد راهنما
- مجید نیلی احمدآبادی, منوچهر مرادی سبزوار
- چکیده
- در این پژوهش، هدف اصلی به دست آوردن مدلی از سامانهی بازی ایرهاکی برای استفاده در عامل ایرهاکی میباشد. ایرهاکی بازیای رقابتی بین دو بازیکن است که هدف در آن فرستادن دیسک بازی به دروازهی حریف است. عاملهای ایرهاکی را میتوان با توجه به استفاده و یا عدم استفاده از مدل سامانه به دو خانوادهی عاملهای مبتنی بر مدل و عاملهای مستقل از مدل تقسیم نمود. در این پژوهش، با تمرکز بر استفاده از مشاهدات محدود و عدم استفاده از تجهیزات پیچیده، عاملهای مبتنی بر مدل و مستقل از مدل پیاده شدهاند. در قدم اول، روشی خودکار برای به دست آوردن ضرایب مدل سامانه ارائه شده است. این روش در محیط شبیهسازی ایرهاکی پیادهسازی شده است. در ادامه، با توجه به وجود خطا در مدلسازیهای انجام شده، روشی برای یادگیری پیچیدگیهای فیزیکی سامانه ارائه شده است. اما با توجه به این که یادگیری پایهای مدل سامانه نیازمند تعداد بالایی مشاهده میباشد، روش یادگیری ارائه شده برای همگرایی سریعتر از مدل نادقیقی از سامانه استفاده میکند. برای این منظور از روش یادگیری گرادیان سیاست استفاده شده که در آن از خطای مشاهده شده در نتیجهی ضربه برای تعریف تابع پاداش مورد انتظار استفاده میشود. سپس، روشی بهبود یافته که نیازمند تعداد کمتری مشاهده باشد ارائه میشود. در این روش از خطای عمل تولید شده برای تعریف تابع پاداش مورد انتظار استفاده شده است. در انتها، روشهای ارائه شده در محیط شبیهسازی ایرهاکی پیادهسازی شده، نتایج به دست آمده مورد مقایسه قرار میگیرند. در آخرین گام، سامانهی رباتیکی ایرهاکی برای انجام آزمایشات و تست روشهای پیشنهادی پیادهسازی شده است. در پیادهسازی این سامانه از یک ربات با دو درجهی آزادی، یک واحد تصویربرداری با نرخ تصویربرداری ?? فریم در ثانیه و یک واحد پردازش استفاده شده است. واحد پردازش با دریافت تصاویر از واحد تصویربرداری مکان و سرعت دیسک بازی را تشخیص داده به تولید مسیر برای ربات ایرهاکی میپردازد.
- Abstract
- In this thesis, the main goal is to obtain a system model of the air hockey game to be used by an air hockey playing agent. Air hockey is a table game in which two players try to hit the puck, i.e. air hockey’s ball, to the opponent’s goal. There are two main categories of air hockey playing agents. If the agent uses the system model in its shot planning and prediction, it is called a model based agent, otherwise, a model free agent. In this work, model based and model free agents are designed with the goal of dealing with sparse observations and lack of high speed camera. In the first step, an automatic calibration algorithm is proposed to obtain the system model parameters. This algorithm is implemented in an air hockey simulator environment. Next, in order to obtain a more accurate system model a learning approach is proposed. As learning the system model from scratch is too slow and requires high number of observations, a learning framework is proposed which uses a rough model of the system in the learning process. In this framework, the error in the result of a shot is used for the definition of the reward. Next, an improved method is proposed which uses fewer observations in its learning process. In this method, the error in the computed action is used for the definition of the reward. These methods are implemented in an air hockey simulator and the results are compared. At last, a robotic air hockey system is implemented for testing the proposed methods. This system is consisted of a two-arm robot, a 30fps camera and a processing unit. The processing unit receives images from the camera, calculates the position and velocity of the puck and generates a trajectory for the robot arm.