عنوان پایاننامه
رتبه بندی صفحات وب مبتنی بر یادگیری براساس نظریه ترکیب اطلاعهات
- رشته تحصیلی
- مهندسی کامپیوتر- هوش مصنوعی - رباتیک
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2885;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72930
- تاریخ دفاع
- ۱۹ دی ۱۳۹۴
- دانشجو
- امیرحسین کیهانی پور
- استاد راهنما
- بهزاد مشیری, مسعود رهگذر
- چکیده
- اطلاعات مربوط به رفتار کاربران جویشگرهای وب در حین جستجوی اطلاعات مورد نیاز که اصطلاحاً اطلاعات کلیک از گذر داده نامیده میشود، در بهبود عملکرد این سامانهها بسیار مفید میباشد. با این وجود، ارایه و در نتیجه، استفاده از این قبیل اطلاعات، در اغلب مجموعههای داده محک موجود برای رتبهبندی مبتنی بر یادگیری و به تبع آن، در اکثر روشهای مطرح شده در این زمینه، مغفول مانده است. همچنین، تعدد ویژگیهای ارایه شده در این مجموعههای داده، ضمن تحمیل هزینههای محاسباتی قابل توجه به روشهای رتبهبندی مطرح شده، کاربرد آنها را در شرایط واقعی، دشوار میکند. به منظور پرداختن به این چالشها، در تحقیقات مربوط به این رساله، رویکرد نوینی برای حل مساله ایجاد رتبهبندی مبتنی بر یادگیری، ارایه شده است که طی آن، با نگاه مفهومی به «اطلاعات کلیک از گذر داده»، از ویژگیهای موجود در مجموعههای داده محک مربوط به رتبهبندی مبتنی بر یادگیری، تعداد معدودی ویژگیهای ثانویه موسوم به «ویژگیهای کلیک از گذر داده» تولید میشود که دارای غنای اطلاعاتی مناسب، به منظور ایجاد روشهای رتبهبندی جدید، میباشند. با بکارگیری روشهای یادگیری تقویتی، مدل ترکیب ردهبندی کنندهها و نیز مدل برنامهنویسی ژنتیک چند لایه و چند جمعیتی، روی ویژگیهای کلیک از گذر داده، الگوریتمهای جدیدی در زمینه رتبهبندی مبتنی بر یادگیری، ارایه شده است. بطور مشخص، در این رساله و ذیل موضوع ایجاد رتبهبندی، سه الگوریتم جدید، مطرح گردیده است. در الگوریتم نخست موسوم به QRC-Rank، بر پایه ویژگیهای کلیک از گذر داده، یک مدل یادگیری تقویتی برای حل مساله رتبهبندی مبتنی بر یادگیری، ارایه میشود. در الگوریتم دوم که CF-Rank نام دارد، یک ساختار ردهبندی دو سطحی، مبتنی بر ویژگیهای کلیک از گذر داده، پیشنهاد میشود و با بکارگیری روشهای ترکیب اطلاعات در ادغام تصمیمات ردهبندی کنندهها، رتبهبندی اسناد وب به ازای پرسوجوهای کاربران، صورت میگیرد. در روش سوم یعنی MGP-Rank، از قابلیت جستجوی فراگیر مدل برنامهنویسی ژنتیک چند لایه و چند جمعیتی، برای یافتن توابع رتبهبندی مناسب اسناد از طریق ادغام ویژگیهای کلیک از گذر داده، بهره گرفته میشود. ارزیابی عملکرد این الگوریتمها روی مجموعههای داده محک فاقد اطلاعات کلیک از گذر داده و نیز مجموعههای داده حاوی این اطلاعات، حاکی از عملکرد بهتر آنها نسبت به روشهای مرجع رتبهبندی مبتنی بر یادگیری، بخصوص در نتایج نخست جستجوها است که غالباً بیشتر مورد توجه کاربران، واقع میشوند. در عین حال، در صورت وجود اطلاعات کلیک از گذر داده در داده محک مورد استفاده، افزایش دقت الگوریتمهای پیشنهادی نسبت به روشهای مرجع، بسیار چشمگیرتر خواهد بود. همچنین، عملکرد الگوریتمهای فوق در بازیابی اطلاعات فارسی وب نیز مورد مطالعه قرار گرفته است. این ارزیابیها نیز نشاندهنده افزایش دقت قابل توجه روشهای پیشنهادی، نسبت به الگوریتمهای پایه رتبهبندی میباشد. همچنین در این رساله، در خصوص تجمیع رتبهبندی نیز روش نوینی مطرح شده است که طی آن، با استفاده از عملگرهای ترکیب اطلاعات، به تلفیق آرای رتبهبندیکنندههای پایه، پرداخته میشود و سپس یک مدل یادگیری تقویتی برای حل مساله تجمیع رتبهبندی، پیشنهاد میشود. دقت این الگوریتم، بخصوص در بخش ابتدایی نتایج، نسبت به روشهای مرجع، بسیار قابل توجه است. علاوه بر آن، یک الگوریتم تشخیص صفحات هرز وب نیز ارایه شده است که طی آن، بر اساس الگوی پیشنهادی جهت انتخاب ویژگیهای کلیدی اسناد، تعداد محدودی از ویژگیهای مهم اسناد در مدل برنامهنویسی ژنتیک چند لایه و چند جمعیتی، برای تولید ردهبندی کننده صفحات هرز وب، استفاده میشود. ارزیابی این الگوریتم، نشان میدهد که علیرغم استفاده محدود آن از ویژگیهای اسناد وب، کارآیی قابل توجهی در مقایسه با روشهای مطرح در زمینه شناسایی صفحات هرز، دارد.
- Abstract
- Data about the search behavior of Web users while browsing the results returned by Web search engines entitled “Click-through data”, is a source of important information, which improves the functionality of Web search engines. Meanwhile, almost none of the released and publicly available benchmark datasets devoted to the task of learning to rank, include explicit click-through data. As a result, most of the proposed learning to rank algorithms, in practice have not used such enriched source of data in their ranking process. Besides, these datasets present a large volume of features for the task of learning to rank which in turn brings out noticeable computational costs for the proposed algorithms, and makes them ineffective in real-world situations. To address these problems, in this research a limited number of secondary features named “Click-through features”, are generated by means of a conceptual view to the click-through data. Thereafter, by applying reinforcement learning, classifier fusion and genetic algorithms to the generated click-through features, some novel learning to rank algorithms are proposed. Within this scope, three different rank algorithms are proposed in this thesis. Briefly, in the first proposed algorithm, QRC-Rank, by using click-through features, a reinforcement learining model of the learning to rank problem is proposed, for which, reinforcement learning methods are used to find optimal solutions. According to the second algorithm, CF-Rank, a two-layer structure of classifiers is proposed, in which by using classifier fusion techniques, decisions of the lower level classifiers are integrated to provide rankings of Web documents with respect to users’ queries. The third proposed learning to rank algorithm is MGP-Rank, which uses the extensive search capability of the Layer Multi-population Genetic Programming, for finding appropriate ranking functions. These learning to rank methods are evaluated on standard benchmark datasets. The experimental results indicate that the proposed methods can provide better rankings of results compared to those of the baseline ranking methods, especially in the higher portions of the ranked lists, which are usually more attractive to the Web users. However, in the case of availability of click-through data in the utilized benchmark dataset, the performance of the proposed learning to rank algorithms would be more noticeable. The functionality of the proposed ranking techniques is also studied in the retrieval of the Persian contents of the Web environment. These analyzes clearly demonstrate significant improvements in comparison with well-known ranking methods based on the evaluation criteria. Another novelty in our work is the proposition of a rank aggregation algorithm in which the suggested reinforcement learining model is effectively explored in order to find adequate solutions. Experimental results indicate a remarkable improvement compared with well-known rank aggregation methods. Also, the Web-page classifier which is provided by using the layered multi-population genetic programming approach for the spam detection purposes, can be regarded as another important novelty of this research work. Evaluating the proposed method shows that although this method utilizes a limited number of the features for Web documents, its performance is still comparable with well-known Web spam detection techniques.