عنوان پایان‌نامه

تعیین ژست سر با استفاده از مدلهای تولیدی



    دانشجو در تاریخ ۱۶ شهریور ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "تعیین ژست سر با استفاده از مدلهای تولیدی" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3061;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77951;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3061;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77951
    تاریخ دفاع
    ۱۶ شهریور ۱۳۹۵
    دانشجو
    سبحان مهدوی
    استاد راهنما
    رشاد حسینی

    تعیین ژست سر به عنوان یک فرآیند پیش‌پردازش در کاربردهای بینایی ماشین از قبیل تشخیص چهره در تصاویر، بازشناخت چهره و بازشناخت حالت چهره بکار می‌رود. این فرآیند پیش‌پردازش، برروی عملکرد این کاربردها تاثیر بسزایی دارد. تعیین ژست سر، پیدا کردن زوایای چرخش سه-بُعدی سر از روی یک تصویر چهره، یا چندین تصویر چهره و یا یک ویدیو است. بدلیل متغیرهای زیادی که در ماهیت تصاویر چهره وجود دارد، طراحی یک سیستم تعیین ژست سر که نسبت به آنها نامتغیر باشد، یک چالش در زمینه کاربردهای بینایی ماشین است. روش‌هایی برای تعیین ژست سر ارائه شده‌اند که توانسته‌اند تا حد خوبی، نسبت به برخی متغیرها مقاوم باشند. یک دسته از روش‌ها که به طور کارآمدی در زمینه کاربردهای مربوط به چهره بکار رفته‌اند، مدل‌های انعطاف‌پذیر و دگردیس هستند. یکی از این مدل‌های کارآمد مدل دگردیس سه بُعدی است. تاکنون از این مدل برای تعیین ژست سر استفاده نشده است، چون یکی از مشکلات این روش، نیاز به ارزش‌دهی آغازین خوب به برخی پارامترهای این مدل از جمله ژست سر می‌باشد. در این تحقیق ما با استفاده از بهینه‌سازی منیفلدی ماتریس چرخش مدل دگردیس، به همراه ارزش‌دهی آغازین نه چندان خوب، تعیین ژست سر را انجام می‌دهیم. یکی از مدل‌های قدرتمند یادگیری ماشین که به طور گسترده‌ای برای کاربردهای بینایی ماشین استفاده شده‌است، شبکه‌های عصبی عمیق می‌باشد. بدلیل موفقیت‌هایی که شبکه‌های عصبی عمیق در سال‌های اخیر در بسیاری از زمینه‌های یادگیری ماشین، به خصوص در زمینه بینایی ماشین داشته‌اند، بر آن شدیم تا از این ابزار برای تعیین ژست سر استفاده کنیم. یکی از فاکتورهای مهم برای موفقیت شبکه عصبی عمیق، وزدن‌دهی اولیه خوب برای پارامترهای شبکه است. یکی از رویکردهای موفق برای حل این مشکل، استفاده از شبکه باور عمیق برای وزن‌دهی اولیه می‌باشد. همچنین بدلیل کم بودن تعداد داده‌ها، ما از تکنیک توقف زودهنگام در آموزش شبکه استفاده می‌کنیم که با توجه به نحوه‌ی انتخاب خاص ما برای مجموعه ارزیابی، تعیین ژست سر به طور قابل‌توجهی نسبت به شکل و ظاهر چهره نامتغیر می‌شود که یکی از متغیرهای مهم در تعیین ژست سر می‌باشد. اما بدلیل متفاوت بودن مجموعه ارزیابی با مجموعه آزمایش، خطای شبکه بالا می‌باشد. به کمک تکنیک بگینگ و انتخاب مجموعه‌های ارزیابی به طور خاص، این مشکل حل می‌شود و خطای شبکه کاهش می‌یابد. به کمک تکینک‌های توقف زودهنگام و بگینگ، انحراف معیار شبکه بسیار کاهش می‌یابد. کلمات کلیدی: مدل تولیدی، یادگیری عمیق، تعیین ژست سر، مدل دگردیس سه بُعدی، شبکه باورعمیق، بهینه‌سازی منیفلدی، یادگیری دسته‌ای
    Abstract
    Head pose estimation is used as a preprocessing step in many machine vision applications such as face detection, recognition and expression recognition. It plays an important role in increasing the performance of machine vision algorithms in many applications. Head pose estimation is the process of finding the angles of 3D face rotation for a face image, multiple face images or a video. There are many variabilities in the face images, so it is a challenge to design a head pose estimation system which is invariant to these intrinsic variabilities in face images. Several effective methods have been proposed for solving the variability problem to a certain degree. The class of flexible and morphable has been used successfully in the face-related applications. 3D Morphable Model (3DMM) is one of the models in this class. Heretofore, 3DMM has not been used for head pose estimation, mainly because this model needs a good initialization for the parameters, particularly head pose parameters. In this work, we exploit manifold optimization techniques for learning 3DMM rotation parameter with no particular initialization method. Deep Neural Network (DNN) is a powerful machine learning model used widely in machine vision application. Recently, deep version of artificial neural networks called DNNs successfully deployed in many applications such as computer vision. An important factor for making DNN into a successful method is to exploit a powerful algorithm for initializing its parameters. One of the effective approaches for initializing DNN is to relate the parameters of DNN to a generative model called DBN. Once DBN is trained on the data, its parameters can be used for initializing DNN. Since the size of our data is small, it is necessary to regularize the network to avoid overfitting. To this end, we select a portion of the data for validation and use early-stopping. According to our choice of validation data, head pose estimation becomes significantly appearance- and shape-invariant. However, the estimation error is relatively high because of the difference between the test and the training data and small size of the training data. To solve this problem, we use Bootstrap Aggregating (Bagging) technique with specific approach for choosing validation sets. These techniques reduce error and variance of the proposed approach. Keywords: Generative Model, Deep Learning, Head Pose Estimation, 3D Morphable Model, Deep Belief Network, Manifold Optimization, Ensemble Learning