عنوان پایان‌نامه

رتبه بندی صفحات وب مبتنی بر یادگیری براساس نظریه ترکیب اطلاعهات



    دانشجو در تاریخ ۱۹ دی ۱۳۹۴ ، به راهنمایی ، پایان نامه با عنوان "رتبه بندی صفحات وب مبتنی بر یادگیری براساس نظریه ترکیب اطلاعهات" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2885;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 72930
    تاریخ دفاع
    ۱۹ دی ۱۳۹۴

    اطلاعات مربوط به رفتار کاربران جویشگرهای وب در حین جستجوی اطلاعات مورد نیاز که اصطلاحاً اطلاعات کلیک از گذر داده نامیده می‌شود، در بهبود عملکرد این سامانه‌ها بسیار مفید می‌باشد. با این وجود، ارایه و در نتیجه، استفاده از این قبیل اطلاعات، در اغلب مجموعه‌های داده محک موجود برای رتبه‌بندی مبتنی بر یادگیری و به تبع آن، در اکثر روش‌های مطرح شده در این زمینه، مغفول مانده است. همچنین، تعدد ویژگی‌های ارایه شده در این مجموعه‌های داده، ضمن تحمیل هزینه‌های محاسباتی قابل توجه به روش‌های رتبه‌بندی مطرح شده، کاربرد آنها را در شرایط واقعی، دشوار می‌کند. به منظور پرداختن به این چالش‌ها، در تحقیقات مربوط به این رساله، رویکرد نوینی برای حل مساله ایجاد رتبه‌بندی مبتنی بر یادگیری، ارایه شده است که طی آن، با نگاه مفهومی به «اطلاعات کلیک از گذر داده»، از ویژگی‌های موجود در مجموعه‌های داده محک مربوط به رتبه‌بندی مبتنی بر یادگیری، تعداد معدودی ویژگی‌های ثانویه موسوم به «ویژگی‌های کلیک از گذر داده» تولید می‌شود که دارای غنای اطلاعاتی مناسب، به منظور ایجاد روش‌های رتبه‌بندی جدید، می‌باشند. با بکارگیری روش‌های یادگیری تقویتی، مدل ترکیب رده‌بندی کننده‌ها و نیز مدل برنامه‌نویسی ژنتیک چند لایه و چند جمعیتی، روی ویژگی‌های کلیک از گذر داده، الگوریتم‌های جدیدی در زمینه رتبه‌بندی مبتنی بر یادگیری، ارایه شده است. بطور مشخص، در این رساله و ذیل موضوع ایجاد رتبه‌بندی، سه الگوریتم جدید، مطرح گردیده است. در الگوریتم نخست موسوم به QRC-Rank، بر پایه ویژگی‌های کلیک از گذر داده، یک مدل یادگیری تقویتی برای حل مساله رتبه‌بندی مبتنی بر یادگیری، ارایه می‌شود. در الگوریتم دوم که CF-Rank نام‌ دارد، یک ساختار رده‌بندی دو سطحی، مبتنی بر ویژگی‌های کلیک از گذر داده، پیشنهاد می‌شود و با بکارگیری روش‌های ترکیب اطلاعات در ادغام تصمیمات رده‌بندی کننده‌ها، رتبه‌بندی اسناد وب به ازای پرس‌وجوهای کاربران، صورت می‌گیرد. در روش سوم یعنی MGP-Rank، از قابلیت جستجوی فراگیر مدل برنامه‌نویسی ژنتیک چند لایه و چند جمعیتی، برای یافتن توابع رتبه‌بندی مناسب اسناد از طریق ادغام ویژگی‌های کلیک از گذر داده، بهره گرفته می‌شود. ارزیابی عملکرد این الگوریتم‌ها روی مجموعه‌های داده محک فاقد اطلاعات کلیک از گذر داده و نیز مجموعه‌های داده حاوی این اطلاعات، حاکی از عملکرد بهتر آنها نسبت به روش‌های مرجع رتبه‌بندی مبتنی بر یادگیری، بخصوص در نتایج نخست جستجوها است که غالباً بیشتر مورد توجه کاربران، واقع می‌شوند. در عین حال، در صورت وجود اطلاعات کلیک از گذر داده در داده محک مورد استفاده، افزایش دقت الگوریتم‌های پیشنهادی نسبت به روش‌های مرجع، بسیار چشم‌گیرتر خواهد بود. همچنین، عملکرد الگوریتم‌های فوق در بازیابی اطلاعات فارسی وب نیز مورد مطالعه قرار گرفته است. این ارزیابی‌ها نیز نشان‌دهنده افزایش دقت قابل توجه روش‌های پیشنهادی، نسبت به الگوریتم‌های پایه رتبه‌بندی می‌باشد. همچنین در این رساله، در خصوص تجمیع رتبه‌بندی نیز روش نوینی مطرح شده است که طی آن، با استفاده از عملگرهای ترکیب اطلاعات، به تلفیق آرای رتبه‌بندی‌کننده‌های پایه، پرداخته می‌شود و سپس یک مدل یادگیری تقویتی برای حل مساله تجمیع رتبه‌بندی، پیشنهاد می‌شود. دقت این الگوریتم، بخصوص در بخش ابتدایی نتایج، نسبت به روش‌های مرجع، بسیار قابل توجه است. علاوه بر آن، یک الگوریتم تشخیص صفحات هرز وب نیز ارایه شده است که طی آن، بر اساس الگوی پیشنهادی جهت انتخاب ویژگی‌های کلیدی اسناد، تعداد محدودی از ویژگی‌های مهم اسناد در مدل برنامه‌نویسی ژنتیک چند لایه و چند جمعیتی، برای تولید رده‌بندی کننده صفحات هرز وب، استفاده می‌شود. ارزیابی این الگوریتم، نشان می‌دهد که علیرغم استفاده محدود آن از ویژگی‌های اسناد وب، کارآیی قابل توجهی در مقایسه با روش‌های مطرح در زمینه شناسایی صفحات هرز، دارد.
    Abstract
    Data about the search behavior of Web users while browsing the results returned by Web search engines entitled “Click-through data”, is a source of important information, which improves the functionality of Web search engines. Meanwhile, almost none of the released and publicly available benchmark datasets devoted to the task of learning to rank, include explicit click-through data. As a result, most of the proposed learning to rank algorithms, in practice have not used such enriched source of data in their ranking process. Besides, these datasets present a large volume of features for the task of learning to rank which in turn brings out noticeable computational costs for the proposed algorithms, and makes them ineffective in real-world situations. To address these problems, in this research a limited number of secondary features named “Click-through features”, are generated by means of a conceptual view to the click-through data. Thereafter, by applying reinforcement learning, classifier fusion and genetic algorithms to the generated click-through features, some novel learning to rank algorithms are proposed. Within this scope, three different rank algorithms are proposed in this thesis. Briefly, in the first proposed algorithm, QRC-Rank, by using click-through features, a reinforcement learining model of the learning to rank problem is proposed, for which, reinforcement learning methods are used to find optimal solutions. According to the second algorithm, CF-Rank, a two-layer structure of classifiers is proposed, in which by using classifier fusion techniques, decisions of the lower level classifiers are integrated to provide rankings of Web documents with respect to users’ queries. The third proposed learning to rank algorithm is MGP-Rank, which uses the extensive search capability of the Layer Multi-population Genetic Programming, for finding appropriate ranking functions. These learning to rank methods are evaluated on standard benchmark datasets. The experimental results indicate that the proposed methods can provide better rankings of results compared to those of the baseline ranking methods, especially in the higher portions of the ranked lists, which are usually more attractive to the Web users. However, in the case of availability of click-through data in the utilized benchmark dataset, the performance of the proposed learning to rank algorithms would be more noticeable. The functionality of the proposed ranking techniques is also studied in the retrieval of the Persian contents of the Web environment. These analyzes clearly demonstrate significant improvements in comparison with well-known ranking methods based on the evaluation criteria. Another novelty in our work is the proposition of a rank aggregation algorithm in which the suggested reinforcement learining model is effectively explored in order to find adequate solutions. Experimental results indicate a remarkable improvement compared with well-known rank aggregation methods. Also, the Web-page classifier which is provided by using the layered multi-population genetic programming approach for the spam detection purposes, can be regarded as another important novelty of this research work. Evaluating the proposed method shows that although this method utilizes a limited number of the features for Web documents, its performance is still comparable with well-known Web spam detection techniques.