عنوان پایان‌نامه

دیدگاه مبتنی بر توجه بصری به انتخاب و بازشناسی خودکار نشانه ها در مکان یابی



    دانشجو در تاریخ ۰۳ مرداد ۱۳۹۰ ، به راهنمایی ، پایان نامه با عنوان "دیدگاه مبتنی بر توجه بصری به انتخاب و بازشناسی خودکار نشانه ها در مکان یابی" را دفاع نموده است.


    محل دفاع
    کتابخانه دانشکده برق و کامپیوتر شماره ثبت: E1908;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 49163
    تاریخ دفاع
    ۰۳ مرداد ۱۳۹۰

    دسته‌بندی دیداری مکان، مسئله¬ای است که در آن ربات، با استفاده از تصاویری که از محیط اطراف مشاهده می¬کند، موقعیتش در محیط را تشخیص می¬دهد. یکی از مهمترین چالش¬ها در این مسئله، نحوه¬ی انتخاب نشانه¬های مناسب و کارا در تصاویر می¬باشد که با استفاده از آن¬ها بتوان تصاویر را دسته‌بندی کرد. در این پژوهش برای پاسخ¬دهی به این مسئله، روشی الهام¬گرفته از دستگاه بینایی انسان ارائه می¬کنیم که با استفاده از مدل¬های محاسباتی توجه دیداری، نشانه¬ها را در تصاویر انتخاب می¬کند. دوربین¬های همه‌جهته، با میدان دید وسیعی که دارند، می¬توانند تصاویری جامع و مستقل از جهت دوربین از محیط دریافت کنند و از اینرو، اخیرا کاربرد وسیعی در دسته‌بندی دیداری مکان پیدا کرده¬اند. تصویربرداری با این دوربین¬ها از قوانین تصویربرداری افکنشی تبعیت نمی¬کند و لذا اعمال مستقیم روش¬های متداول در تصاویر افکنشی به روی تصاویر همه‌جهته از کارایی لازم برخوردار نمی¬باشد. علاوه بر این به علت اجزاء به کار برده شده در ساختار دوربین¬های همه‌جهته، تصاویر این دوربین¬ها دچار اعوجاج¬های شعاعی و تغییر شکل¬های غیر خطی شدیدی می¬شوند که بازشناسی آن¬ها را دشوار می¬کند. در این پایان نامه تلاش شده است با بهره گیری از خصوصیات تصاویر همه‌جهته، روشی برای غلبه بر این مشکلات و انتخاب نشانه¬ها در این تصاویر ارائه شود. این روش از دو مدل توجه پایین به بالا و توجه بالا به پایین تشکیل شده است. در قدم اول نواحی حاوی اطلاعات و برجسته¬تر تصویر که نسبت به اعوجاج¬های رایج در تصاویر همه‌جهته مقاوم هستند استخراج می¬شوند. برای این منظور از مدل توجه پایین به بالایی که ارائه کرده¬ایم استفاده شده است. این مدل از افزودن یک کانال ویژگی جدید به مدل مبتنی بر نقشه‌ی¬ برجستگی استاندارد ایجاد می¬شود. این کانال ویژگی خطوط شعاعی برجسته¬ی تصویر را پیدا کرده و نقشه‌ی برجستگی را به سمت آن¬ها متمایل می¬کند. با توجه به اینکه در تصویربرداری با دوربین¬های همه‌جهته خطوط شعاعی تصویر نسبت به اعوجاج¬های شعاعی مقاوم و ناوردا می¬باشند، نواحی برجسته¬ی انتخاب شده توسط مدل پیشنهادی کمتر دچار تغییرات می¬شوند و از اینرو گزینه¬های مناسبی برای انتخاب شدن به عنوان نشانه¬های تصویر می¬باشند. آزمایش¬ها نشان می¬دهد که دسته‌بندی تصاویر بر اساس نواحی برجسته¬ای که توسط مدل توجه پایین به بالای پیشنهادی ما انتخاب می¬شوند، نسبت به مدل مبتنی بر نقشه‌ی¬ برجستگی استاندارد از دقت بیشتری برخوردار است. پس از استخراج نواحی برجسته¬ی تصویر با استفاده از مدل توجه پایین به بالای پیشنهادی، سیاست بهینه برای انتخاب نشانه¬ها توسط توجه بالا به پایین یاد گرفته می¬شود. به عبارت دیگر، توجه بالا به پایین یاد می¬گیرد از بین نواحی برجسته¬ی تصاویر، کدام نواحی را به عنوان نشانه¬ها انتخاب کند تا دقت دسته‌بندی تصاویر بیشینه شود. برای این منظور مسئله انتخاب نشانه¬ها را در قالب یادگیری تقویتی فرموله کرده و با استفاده از روش یادگیری Q آن را حل می¬نماییم. در این فرمول‌بندی، عامل یاد می¬گیرد با توجه به نشانه¬هایی که تا آن لحظه مشاهده کرده است، مرکز توجهش را به کدام ناحیه از تصویر متمایل کند تا نشانه¬ی بعدی را انتخاب نماید. آزمایش¬ها نشان می¬دهد که با استفاده از این مدل توجه، می¬توان تصاویر را با هزینه¬ی محاسباتی کمتر و دقت بیشتری نسبت به مدل توجه پایین به بالا و همچنین روش¬های سراسری دسته‌بندی کرد. کلمات کلیدی: توجه دیداری، تصاویر همه‌جهته، دسته‌بندی دیداری مکان، بازشناسی صحنه
    Abstract
    Visual Place Categorization (VPC) is the problem of determining the robot’s location by using the images, which are taken by the robot while exploring the environment. One of the major challenges in VPC is how to select the discriminative and invariant image landmarks. In this thesis we tackle this problem and propose a biologically inspired method for automatic landmark detection and recognition for VPC. Our method uses computational models of visual attention so as to detect the image landmarks. Omnidirectional sensors are the imaging systems developed capable of recording the world in all directions from a center of projection. Therefore, they provide the rich and direction invariant representation of the scenes and are widely used in VPC. These imaging systems do not obey the projective imaging properties and so, the conventional methods can not be directly applied to them. Therefore, in this thesis we propose a visual attention based method that is specialized for the omnidirectional images. This method consists of two models of bottom-up and top-down visual attention. The proposed model of bottom-up visual attention directs the bottom-up attention towards the image regions which are not only salient, but also invariant against the radial distortions and deformations. For this purpose, we add a new channel to the standard saliency based model of visual attention. This new channel finds the salient radial lines of the scene and biases the saliency map towards them. Since in omnidirectional imaging the radial lines are invariant against the radial distortions, the attended regions would be invariant and could be considered as the scene landmarks. Our experiments demonstrate that classifying the images based on the salient regions, which are extracted by our proposed model of bottom-up visual attention has a better performance than the standard saliency based model of visual attention. After extracting the salient images’ regions by our proposed bottom-up model, the optimal policy for selecting the appropriate landmarks is learnt by the top-down visual attention. In other words, the top-down visual attention learns how to select the scene landmarks within the image salient regions, in order to maximize the recognition rate. For this purpose, we propose a model of top-down visual attention, which utilizes the spatial relations that exist between the scene objects in order to find the landmarks within the images’ salient regions. The experiments demonstrate that using this model, we can categorize the images with lower computational cost and the better recognition rate, in comparision with the bottom-up visual attention and the holistic approach. Keywords: Visual Attention, Omnidirectional Images, Visual Place Categization, Scene Recognition.