عنوان پایاننامه
تعیین ژست سر با استفاده از مدلهای تولیدی
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3061;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77951;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3061;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 77951
- تاریخ دفاع
- ۱۶ شهریور ۱۳۹۵
- دانشجو
- سبحان مهدوی
- استاد راهنما
- رشاد حسینی
- چکیده
- تعیین ژست سر به عنوان یک فرآیند پیشپردازش در کاربردهای بینایی ماشین از قبیل تشخیص چهره در تصاویر، بازشناخت چهره و بازشناخت حالت چهره بکار میرود. این فرآیند پیشپردازش، برروی عملکرد این کاربردها تاثیر بسزایی دارد. تعیین ژست سر، پیدا کردن زوایای چرخش سه-بُعدی سر از روی یک تصویر چهره، یا چندین تصویر چهره و یا یک ویدیو است. بدلیل متغیرهای زیادی که در ماهیت تصاویر چهره وجود دارد، طراحی یک سیستم تعیین ژست سر که نسبت به آنها نامتغیر باشد، یک چالش در زمینه کاربردهای بینایی ماشین است. روشهایی برای تعیین ژست سر ارائه شدهاند که توانستهاند تا حد خوبی، نسبت به برخی متغیرها مقاوم باشند. یک دسته از روشها که به طور کارآمدی در زمینه کاربردهای مربوط به چهره بکار رفتهاند، مدلهای انعطافپذیر و دگردیس هستند. یکی از این مدلهای کارآمد مدل دگردیس سه بُعدی است. تاکنون از این مدل برای تعیین ژست سر استفاده نشده است، چون یکی از مشکلات این روش، نیاز به ارزشدهی آغازین خوب به برخی پارامترهای این مدل از جمله ژست سر میباشد. در این تحقیق ما با استفاده از بهینهسازی منیفلدی ماتریس چرخش مدل دگردیس، به همراه ارزشدهی آغازین نه چندان خوب، تعیین ژست سر را انجام میدهیم. یکی از مدلهای قدرتمند یادگیری ماشین که به طور گستردهای برای کاربردهای بینایی ماشین استفاده شدهاست، شبکههای عصبی عمیق میباشد. بدلیل موفقیتهایی که شبکههای عصبی عمیق در سالهای اخیر در بسیاری از زمینههای یادگیری ماشین، به خصوص در زمینه بینایی ماشین داشتهاند، بر آن شدیم تا از این ابزار برای تعیین ژست سر استفاده کنیم. یکی از فاکتورهای مهم برای موفقیت شبکه عصبی عمیق، وزدندهی اولیه خوب برای پارامترهای شبکه است. یکی از رویکردهای موفق برای حل این مشکل، استفاده از شبکه باور عمیق برای وزندهی اولیه میباشد. همچنین بدلیل کم بودن تعداد دادهها، ما از تکنیک توقف زودهنگام در آموزش شبکه استفاده میکنیم که با توجه به نحوهی انتخاب خاص ما برای مجموعه ارزیابی، تعیین ژست سر به طور قابلتوجهی نسبت به شکل و ظاهر چهره نامتغیر میشود که یکی از متغیرهای مهم در تعیین ژست سر میباشد. اما بدلیل متفاوت بودن مجموعه ارزیابی با مجموعه آزمایش، خطای شبکه بالا میباشد. به کمک تکنیک بگینگ و انتخاب مجموعههای ارزیابی به طور خاص، این مشکل حل میشود و خطای شبکه کاهش مییابد. به کمک تکینکهای توقف زودهنگام و بگینگ، انحراف معیار شبکه بسیار کاهش مییابد. کلمات کلیدی: مدل تولیدی، یادگیری عمیق، تعیین ژست سر، مدل دگردیس سه بُعدی، شبکه باورعمیق، بهینهسازی منیفلدی، یادگیری دستهای
- Abstract
- Head pose estimation is used as a preprocessing step in many machine vision applications such as face detection, recognition and expression recognition. It plays an important role in increasing the performance of machine vision algorithms in many applications. Head pose estimation is the process of finding the angles of 3D face rotation for a face image, multiple face images or a video. There are many variabilities in the face images, so it is a challenge to design a head pose estimation system which is invariant to these intrinsic variabilities in face images. Several effective methods have been proposed for solving the variability problem to a certain degree. The class of flexible and morphable has been used successfully in the face-related applications. 3D Morphable Model (3DMM) is one of the models in this class. Heretofore, 3DMM has not been used for head pose estimation, mainly because this model needs a good initialization for the parameters, particularly head pose parameters. In this work, we exploit manifold optimization techniques for learning 3DMM rotation parameter with no particular initialization method. Deep Neural Network (DNN) is a powerful machine learning model used widely in machine vision application. Recently, deep version of artificial neural networks called DNNs successfully deployed in many applications such as computer vision. An important factor for making DNN into a successful method is to exploit a powerful algorithm for initializing its parameters. One of the effective approaches for initializing DNN is to relate the parameters of DNN to a generative model called DBN. Once DBN is trained on the data, its parameters can be used for initializing DNN. Since the size of our data is small, it is necessary to regularize the network to avoid overfitting. To this end, we select a portion of the data for validation and use early-stopping. According to our choice of validation data, head pose estimation becomes significantly appearance- and shape-invariant. However, the estimation error is relatively high because of the difference between the test and the training data and small size of the training data. To solve this problem, we use Bootstrap Aggregating (Bagging) technique with specific approach for choosing validation sets. These techniques reduce error and variance of the proposed approach. Keywords: Generative Model, Deep Learning, Head Pose Estimation, 3D Morphable Model, Deep Belief Network, Manifold Optimization, Ensemble Learning