عنوان پایاننامه
انتخاب ویژگی با رویکرد برخط با استفاده از مدلهای احتمالاتی
- رشته تحصیلی
- علوم تصمیم و مهندسی دانش
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74369;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74369
- تاریخ دفاع
- ۰۳ اسفند ۱۳۹۴
- دانشجو
- مجتبی نیازی خلیل آباد
- استاد راهنما
- هادی زارع
- چکیده
- چکیده انتخاب ویژگی در مسائلی مانند شناسایی الگو، بیوانفورماتیک، یادگیری ماشین و دادهکاوی، بخش بسیار مهم و ضروری محسوب میشود. رویکرد انتخاب ویژگی قابلیت کاهش بار محاسباتی برای نمونه دادههایی با تعداد ویژگی بالا و افزایش صحت یادگیری را امکان پذیر میکند. رویکردهای متفاوتی برای انتخاب ویژگی تاکنون معرفی شده است که بسیاری از آنها در مواجهه با تعداد ویژگیهای بسیار بالا نا کار آمد هستند.در این پایاننامه، روشی جدید برای انتخاب ویژگی بر اساس مدلهای گرافی احتمالاتی و ابزار تئوری اطلاعات ارائه شده است، همچنین روشی دیگر بر مبنای پیدا کردن مجموعه پوششی مارکوف در حالت پیوسته با کمک گرافی وزندار از نمونهها ارائه شده است. در این پایاننامه ابتدا مروری جامع بر روش های انتخاب ویژگی، دستهبندیها و چالشهای موجود صورت پذیرفته است، در ادامه رویکردی جدید با استفاده از روش مدلهای گرافی احتمالاتی برای پوشش کاستیهای روشهای قبلی پیشنهاد شده است. رویکرد پیشنهاد شده از یادگیری ساختار به عنوان مدلی از ویژگیها برای شناسایی ویژگیهای وابسته و زائد در راستای بیشینه کردن تابع شباهت استفاده میکند. روش پیشنهاد شده که از این پس آن را SLFS مینامیم، علاوه بر انتخاب زیرمجموعهای از ویژگیها به عنوان مجموعه ویژگی پوششی مارکوف، مدلی جداساز از شبکههای بیزی را نیز بدون هزینه یادگیری ایجاد میکند. در این پایاننامه روش SLFS را بر اساس هزینه محاسباتی بر مبنای مرتبه زمانی الگوریتم با تعدادی از روشهای معرفی شده به عنوان روشهای انتخاب ویژگی مقایسه کردهایم. روش پیشنهادی بر اساس خروجی معیار صحت جداسازها بر روی ویژگیهای انتخاب شده با استفاده از جداسازهای استاندارد مورد ارزیابی قرار گرفته است، که نتایج نشان از بهبود الگوریتم در ویژگیهای انتخاب شده و همچنین بهبود در میزان صحت خروجی جداساز BNSLFS نسبت به جداسازهای معیار دارد. همچنین در این پایاننامه روشی دیگر بر مبنای فاصله بین نمونهها در دادههای پیوسته ارائه شده که در این روش گراف وزنداری بر اساس فاصلهی بین نمونهها ایجاد میشود. با استفاده از گراف فاصله بین نمونهها به انتخاب ویژگی و تمایز ویژگیها از یکدیگر پرداختهایم. روش پیشنهاد شده که آن را از این پس FSMargin مینامیم، بر روی مجموعه دادههای محک با دیگر روشهای انتخاب ویژگی مقایسه و ارزیابی کردهایم. کلمات کلیدی: انتخاب ویژگی، مدلهای گرافی احتمالاتی، اطلاعات متقابل، مجموعه پوششی مارکوف، یادگیری ساختار
- Abstract
- Feature selection is an important task in many problems occurring in pattern recognition, bioinformatics, machine learning and data mining applications. The feature selection approach enables us to reduce the computation burden and the falling accuracy affect of dealing with huge number of features in typical learning problems. There is a variety of techniques for feature selection in supervised learning problems based on different selection metrics. In this paper, we propose a novel unified framework for feature selection built on the graphical models and information theoretic tools. The proposed approach exploits the structure learning among features to select more relevant and less redundant features to the predictive modeling problem according to a primary novel likelihood based criterion. In line with the selection of the optimal subset of features through the proposed method, it provides us the Bayesian network classifier without the additional cost of model training on the selected subset of features. The optimal properties of our method are established through empirical studies and computational complexity analysis. Furthermore the proposed approach is evaluated on a bunch of benchmark datasets based on the well-known classification algorithms. Extensive experiments confirm the significant improvement of the proposed approach compared to the earlier works. Keyword: Feature selection, Supervised learning, Relevant features, Mutual information, Structure learning, Graphical models