عنوان پایاننامه
تشخیص وب گاه های هرز فارسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2913;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74424;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2913;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74424
- تاریخ دفاع
- ۱۲ شهریور ۱۳۹۳
- دانشجو
- الهه ربانی
- استاد راهنما
- آزاده شاکری
- چکیده
- با توجه به رشد روزافزون اطلاعات موجود در وب، موتورهای جستوجو در بازیابی اطلاعات مورد نیاز کاربران از میان حجم زیادی از اطلاعات نقشی اساسی ایفا میکنند. با بررسی رفتار کاربر در اینترنت مشاهده شده است که بیشترین بازدید از یک صفحه وب، به واسطه نتایج اولیه بازیابی شده توسط موتورهای جستوجو میباشد. با توجه به این امر، ایده هرزنویسی در وب با هدف افزایش رتبه صفحات هرز در میان نتایج موتورهای جستوجو مطرح شد. برای شناسایی و مقابله با این صفحات روشهایی ارائه شده است که میتوان آنها را به سه دسته کلی روشهای مبتنی بر محتوا، روشهای مبتنی بر پیوند و روشهای مبتنی بر دادههای جانبی تقسیم نمود. در این پژوهش تمرکز بر روی دو روش اصلی مبتنی بر محتوا و مبتنی بر پیوند و همچنین ترکیب این دو روش به منظور شناسایی وبگاههای هرز میباشد. از آنجایی که عملکرد موتورهای جستوجو در شناسایی وبگاههای هرز فارسی پایین میباشد، در این پژوهش پس از ساخت یک مجموعه دادهای مناسب شامل وبگاههای هرز و معتبر فارسی، به بررسی و تحلیل تعدادی از ویژگیهای محتوایی برای شناسایی وبگاههای هرز فارسی میپردازیم. سپس با ارائه چندین ویژگی محتوایی جدید و استفاده از روشهای انتخاب ویژگی، کارایی ردهبندی وبگاهها را افزایش میدهیم. در ادامه، یک سامانه جدید شناساگر هرز وب فارسی را ارائه میدهیم که از مدل بهبود یافته کیف کلمات برای استخراج ویژگیها استفاده می نماید و نسبت به روشهای محتوایی پیشین کارایی بالاتری دارد. با توجه به گسترش استفاده از الگوریتمهای مبتنی بر پیوند در روشهای هرزنویسی، تعدادی از الگوریتمهای مهم در این زمینه را مورد بررسی قرار داده و دو الگوریتم جدید ارائه میدهیم که بسیاری از نقاط ضعف الگوریتمهای پیشین را ندارند. در الگوریتم اول برای بهبود انتشار امتیاز اعتماد در گراف وب، از سه سیاست انتخاب بهینه گرههای بذر، وزندهی به یالهای گراف برای مشخص کردن میزان اعتبار یالها، و بسط دورهای گرههای بذر استفاده میشود. در الگوریتم دوم با استفاده از انتشار امتیاز هرز، همزمان به صورت پیشرو و پسرو در سراسر گراف وب، کیفیت رتبهبندی وبگاههای هرز را بهبود میدهیم. در آخر نیز به منظور بهبود کیفیت رتبهبندی وبگاهها روشی پیشنهاد داده میشود که برای انتشار امتیاز وبگاهها، از احتمال اعتبار و هرز بودن محتوایی وبگاهها در تمام بخشهای گراف استفاده مینماید. در پایان این پژوهش، به منظور ارزیابی روشها و بررسی میزان کارایی آنها، آزمایشهای مربوطه انجام شده است. نتایج آزمایشها نشان میدهد که روشهای ارائه شده در مقایسه با روشهای قبلی، از کارایی و دقت بالاتری برخوردار هستند. واژههای کلیدی: هرزنویسی، هرزوب، شناسایی هرز، انتشار برچسب، ویژگیهای محتوایی.
- Abstract
- In recent years, due to the increasing amount of data available on the internet, the use of search engines to retrieve relevant information from the World Wide Web has become pervasive. Among the huge number of websites, the ones which succeed to appear more frequently and in higher ranks of search engine results would receive more visitors. So, spammers struggle to achieve a higher than deserved rank for their websites using some illegal techniques called web spamming. Although various methods have been used for combatting web spamming, we could basically categorize them into three groups: content-based methods, link-based methods, and the methods based on miscellaneous data. In this thesis, we focus on content-based and link-based methods, and also their combination. Despite the existence of many spam detection methods, the search engines do not perform well in detecting Persian spam websites. Thus, in this thesis, after preparing a corpus of spam and non-spam Persian websites, we analyze the effectiveness of many previously proposed content-based features on detecting Persian spam websites. To improve the performance of classification, we present a number of new content-based features and examine a number of feature selection methods. As another approach, we propose a new Persian spam detection system which uses an improved version of bag-of-words model and has better performance in detecting Persian web spam. Due to the prevalence of link-based spamming methods, we analyze some of these methods and propose two new algorithms which do not have the weaknesses of previous methods. In the first algorithm, to improve the process of label propagation, we use three mechanisms: optimized seed selection, edge weighting, and seed expansion. In the second algorithm, we improve the quality of websites ranking, using label propagation in both forward and backward directions. Finally, we propose a combined method, which uses the content-based probability of being spam (non-spam) to propagate the spam (non-spam) score of websites. Using this method, we increase the performance of ranking websites. Finally, to evaluate the proposed methods and compare their performance with the existing methods for this task, we have conducted several experiments on different datasets. Experiment results indicate that the proposed methods have a good performance in detecting web spam. Keywords: Spamming, Web Spam, Spam Detection, Label Propagation, Content-Based Features