عنوان پایان‌نامه

سازمان دهی نتایج جستجو با کمک محتویات سایتهای ویکی مدیا



    دانشجو در تاریخ ۱۲ مهر ۱۳۹۰ ، به راهنمایی ، پایان نامه با عنوان "سازمان دهی نتایج جستجو با کمک محتویات سایتهای ویکی مدیا" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 50883
    تاریخ دفاع
    ۱۲ مهر ۱۳۹۰

    موتورهای جستجوی کنونی در جواب پرس وجوی کاربر یک لیست مرتب شده را برمی گردانند. اگرچه این روش در برخی از مواقع کافی است، ممکن است در پاره ای از پرس و جوها جوابگوی نیاز نباشد و کاربر مجبور شود تا یک لیست طولانی را مرور کند تا به نتایجی درباره نیاز اطلاعاتی مورد نظر خود برسد. به عنوان نمونه زمانی که عبارت "Java" را جستجو می کنیم، تفکیک پاسخ هایی که در مورد نرم افزار جاوا هستند از پاسخ هایی که درباره قهوه جاوا و یا جزیره جاوا هستند بسیار مشکل است. در اینگونه موارد به علت اینکه نرم افزار جاوا بسیار معروف است، بیشتر پاسخ هایی که در ابتدای لیست قرار دارند به این موضوع مربوط خواهند بود. در این شرایط یافتن پاسخ هایی در مورد قهوه ای به نام جاوا بسیار مشکل خواهد بود. یک روش جایگزین معمول، استفاده از خوشه بندی نتایج جستجو است تا کاربر بتواند در میان خوشه ها جستجو کند. اما این کار نیز با دو مشکل مواجه است. 1) چگونه خوشه ها را تعریف کنیم. 2) چگونه خوشه ها را به گونه ای نامگذاری کنیم که گویای محتوای آنها باشد. به دلیل حجم بالای اطلاعات موجود در ویکی پدیا و ساختار مناسب صفحات آن، در این پایان نامه از ویکی پدیا به عنوان منبع اطلاعاتی استفاده کرده و سعی در حل این مشکل می کنیم. بدین منظور بر اساس پرس وجوی کاربر یک سلسله مراتب از رده ها را از ویکی پدیا استخراج می کنیم. سپس با استفاده از پیوندهای موجود و محتوای مقالات ویکی پدیا، یک رده بند آموزش داده و توسط آن پاسخ های جستجو را در رده ها، رده بندی می کنیم. در راستای تهیه اطلاعات کافی برای آموزش رده های مختلف رده بند از روشهای گسترش پرس و جو (Query Expansion) و ترکیب اطلاعات (Data Fusion) استفاده شده است. از آنجا که ویکی پدیا به صورت دستی ویرایش شده است، ارزیابی ها نشان می دهد که روش پیشنهادی از روش های موجود که به صورت خودکار عمل خوشه بندی و نامگذاری را انجام می دهند بهتر عمل می کند.
    Abstract
    Most current search engines return a ranked list of results in response to the user’s query. Although this simple approach is sufficient in some cases, it may become inefficient in others, requiring the user to go through a long list of results to find the documents related to his information need. A common alternative way is to cluster the search results and allow the user to browse the clusters instead, but this also imposes two challenges: 1) How to define the clusters and 2) How to label them in an informative way. In this paper we propose a method which uses Wikipedia as the source of information to organize the search results and addresses these two challenges. Depending on the user’s query, our proposed method extracts a hierarchy of categories from Wikipedia pages. It then trains a classifier using Web Pages related to these categories as training data, and classifies the search results using the learned classifier. We employ query expansion and data fusion in order to find sufficient training pages related to each category. Since Wikipedia is a huge manually edited collection, we expect to get better results than the current automatic clustering and labeling methods. We have conducted a user study to evaluate the effectiveness of our method. Experiment results confirm the effectiveness of the proposed approach and its superiority over current method.