عنوان پایان‌نامه

بررسی متد های اطلاعات حجیم در الگوریتم های یادگیری ماشین



    دانشجو در تاریخ ۰۸ شهریور ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "بررسی متد های اطلاعات حجیم در الگوریتم های یادگیری ماشین" را دفاع نموده است.


    محل دفاع
    کتابخانه پردیس یک فنی شماره ثبت: 80..;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 69413
    تاریخ دفاع
    ۰۸ شهریور ۱۳۹۴
    استاد راهنما
    علی معینی

    در این پایان نامه ما روش هایی را بررسی خواهیم کرد که در پردازش داده های حجیم مورد استفاده قرار می گیرند. سپس به کمک سیستم های توزیع شده، مفاهیم مورد نظر را در حوزه یادگیری ماشین گسترش خواهیم داد. \glspl{Ensemble Methods} ،الگوریتم هایی هستند که مجموعه ای از \glspl{Classifier} ها را ایجاد می کنند و داده های جدید را با استفاده از رای گیری وزن دار بین پیش بینی هایی که توسط اعضا در نظر گرفته می شود، کلاس بندی می کنند . روش اولیه ای که برای این کار استفاده می شد استفاده از میانگین گیری بیزی بود، اما اخیرا الگوریتم های دیگری مانند{\lr{output-code error correction}} و {\lr{Bagging}} ارائه شده است . در این پایان نامه ضمن بررسی این روش ها، آن ها را با روش های تک عضوی مقایسه می کنیم. آنگاه مدلی مبتنی بر سیستم های توزیع شده ارائه و کارایی آن را با الگوریتم های قبلی مقایسه می کنیم. مدل پیشنهادی اولیه از یک گره اصلی و چندین گره عادی ساخته می شود. در این مدل گره اصلی باید یاد بگیرد که کدام گره ها بهتر از گره های دیگر می توانند کلاس نمونه ورودی جدید را تشخیص دهند. بنابر این برای اینکه بتواند کلاس نمونه ورودی جدید را به درستی تشخیص دهد آن را به گره های موثر ارسال می کند و در بین پاسخ های داده شده عملیات رای گیری را انجام می دهد. در مدل پیشنهادی اولیه شبکه عصبی $Multilayer Perceptron$ به عنوان هسته اصلی یادگیری انتخاب شده است. همچنین با تغییر هسته یادگیری مدل پیشنهادی اولیه، الگوریتم \lr{Learn++} را به عنوان هسته الگوریتم پیشنهادی به جای $Multilayer Perceptron$ استفاده کردیم. الگوریتم \lr{Learn++} یک الگوریتم قدرتمند برای یادگیری تدریجی می باشد. با توجه به اینکه این الگوریتم با ساختار مدل پیشنهادی ما منطبق است، ما از این الگوریتم به عنوان هسته الگوریتم خود استفاده کردیم. نتایج نشان می دهد که روش پیشنهادی در ارزیابی های به عمل آمده که بر روی پایگاه داده \lr{Optical Digits} پیاده سازی شده است، نتایج بهتری را در اختیار ما قرار می دهد. لازم به ذکر است که پایگاه داده \lr{Optical Digits} یکی از پایگاه داده های مشکل برای مساله کلاس بندی می باشد، چون تعداد کلاس های موجود در آن زیاد است.
    Abstract
    In this thesis we check the methods that are used in big data processing. After that, we extend these methods to the machine learning scope by using distributed systems. Ensemble methods are algorithms that generate set of classifiers and classify new instances by weighted majority voting among these classifiers. First method to accomplish this was using Bayesian averaging. But, recently new methods like output-code error correction and Bagging have been proposed. In this thesis, we take a look for these methods and compare them with methods that use just one classifier in their structure. Then, we propose a model based on distributed systems and compare it's performance with the previous models. The proposed model is made up from a master node and some other nodes. In this model, the master node learns which nodes in the system could classify new instance better than other nodes. So, in the classification phase, it sends the new instance to the effective nodes and then it uses voting schemas among the results of these nodes. At first, we used Multilayer Perceptron as the core of our learning algorithm. But we confronted with some poor results. Then we changed the core of our learning algorithm to Learn++ algorithm. Learn++ is a powerful algorithm for incremental learning. We see that this algorithm can work with our proposed model. So, we decide to use this algorithm as the core of our learning model. Experimental results on the Optical Digits database show better performance. Also we should mention that Optical Digits database is one of the hardest problems in the area of classification, because it has 10 classes in itself.