عنوان پایاننامه
بهبود سیستمهای فیلترینگ ایمیل های ناخواسته مبتنی بر یادگیری ماشین
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 44174;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1710
- تاریخ دفاع
- ۳۰ آبان ۱۳۸۸
- دانشجو
- علی رضا زهدی
- استاد راهنما
- مسعود رهگذر
- چکیده
- چکیده پدیده¬ی هرزنامه کارایی پست الکترونیک را با چالش جدی مواجه کرده است. بر این اساس، مقابله با هرزنامه یا هرزستیزی به عنوان یک موضوع پژوهشی مهم مورد توجه است. هرزپالاها و به خصوص پالایه¬های مبتنی بر یادگیری ماشین نقش مهمی را در جهت هرزستیزی ایفا می¬کنند. اما واکنش¬های هوشمندانه¬ی مداوم هرزفرست¬ها در مقابل هرزپالاها، مانند ارسال هرزنامه¬های تصویری یا ابهام¬آلود کردن محتوای پیغام¬ها برای ماشین، مقابله با این واکنش¬ها را به یک نیاز پژوهشی مستمر تبدیل کرده است. این کار نیازمند توجه جدی به بحث چگونگی معرفی پیغام¬ها به ماشین یا همان نحوه¬ی نمایش است. بر این اساس بهبود و غنی¬تر کردن نمایش پیغام¬ها جهت بهبود هرزپالاها از اهمیت خاصی برخوردار است. ایده¬ی اصلی این پژوهش «نمایش ترکیبی پیغام¬ها» است؛ یعنی جهت بهبود نمایش پیغام¬ها، روش¬های مختلف نمایش را با یکدیگر ترکیب کنیم. یک رده¬بند اگر به جنبه¬های مختلف پیغام¬ها توجه کند، می¬تواند شناخت بهتری از رایانامه¬ها پیدا کرده و کاراتر عمل کند؛ مانند انسانی که از زوایای مختلف به یک مسئله نگاه می¬کند و بر اساس آن تصمیم می¬گیرد. در این کار ما به عنوان نمونه چهار روش مبتنی بر نمایش ساده را در نظر گرفته و با شیوه¬های مختلف آنها را ترکیب کرده¬ایم. این چهار روش متن پیغام¬ها را از جنبه¬های مختلف مورد توجه قرار می¬دهند و شامل نمایش¬های مبتنی بر کلمات منفرد، عبارت¬ها، جملات منطقی و چندگرم¬های نویسه¬ای می¬باشند. در واقع در این پژوهش ما سه پیشنهاد جدید برای بهبود هرزپالاهای مبتنی بر یادگیری ماشین مطرح کرده و بهبودهای ناشی از بکارگیری آنها را در آزمایش¬ها نشان داده¬ایم: اوّل، استفاده از روابط معنایی موجود در پیغام¬ها بر اساس عبارت¬ها و جملات منطقی- استخراج شده به کمک سامانه¬ی نمایش غنی مستندات (RDR) - علاوه بر کلمات منفرد. دوم، استفاده از دو شیوه¬ی ترکیب اطلاعات جهت ترکیب روش¬های نمایشی ساده¬تر، یکی ترکیب خطی و دیگری ترکیب غیر خطی با عملگر OWA. سوم، استفاده از الگوریتم بیزی توسعه¬یافته. کلمات کلیدی: هرزپالایی، یادگیری ماشین، ترکیب اطلاعات، نمایش مستندات، روابط معنایی، الگوریتم بیزی، دسته¬بندی متن.
- Abstract
- Abstract The spam is a real threat to the performance of the electronic mail. So the fight against spam or anti-spam is a noticeable research topic. Spam filters and specially filters based on machine learning play an important role for anti-spam. But the ongoing and intelligently reactions of the spammers against the spam filters, like sending image spams or obfuscating the content of the messages, make the opposing reactivity a continuous research requirement. This task needs a specific attention to the subject of massage representation. Therefore the enrichment of the message representation is very significant for improving the spam filters. The main idea of this research is the “Combined Message Representation” (CMR); that is combining the different representation methods for improving the message representation. A classifier, if pays attention to the different aspects of the messeges, can achieve a higher cognition about emails; like a person who regards a problem from several different viewpoints and decides based upon it. In this work we have considered four methods of simple representation and combined them by different techniques. These methods look at the different aspects of the messeges’ text and include the representations based on single words, phrases, logical terms and character n-grams. In fact, in this research we have presented three new suggestions: The first, the use of semantic relations existing in the messages based on the phrases and logical terms – extracted by the help of the Rich Document Representation (RDR) system – in addition to the single words. The second, the use of two techniques of information combination for combinig the simple message representation methods; the linear combination and the non-linear one by OWA operator. The third, the use of the enhanced Bayesian algorithm. Key words: Spam Filtering, Machine Learning, Information Combination, Document Representation, Semantic Relations, Bayesian Algorithm, Text Classification