عنوان پایان‌نامه

بهبود بازدهی موتورهای جستجو با تکیه بر تکنیکهای تحلیلی گراف وب



    دانشجو در تاریخ ۱۳ اسفند ۱۳۸۶ ، به راهنمایی ، پایان نامه با عنوان "بهبود بازدهی موتورهای جستجو با تکیه بر تکنیکهای تحلیلی گراف وب" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 38414;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1492
    تاریخ دفاع
    ۱۳ اسفند ۱۳۸۶
    استاد راهنما
    ناصر یزدانی

    چکیده از زمان پیدایش شبکه‌ی جهانی اینترنت تا کنون حجم وب همواره رو به افزایش بوده است. استفاده از گستره‌ی اطلاعاتی وب یکی از نیازهای روزمره انسانها در جوامع بشری امروزی را تشکیل می‌دهد. علاوه بر اینکه عدم وجود نظارت و کنترل بر نحوه‌ی تولید محتوا در وب، منجر به تولید اطلاعات فراوانی با سطوح کیفیت، اهمیت و درستی متفاوت شده‌، استفاده‌کنندگان از وب را نیز قشر وسیعی از کاربران با سلایق، علایق، نقطه نظرات، تحصیلات، توانایی‌ها و سطوح فرهنگی متنوع تشکیل می‌دهند. جستجو در این بازار آشفته و یافتن نتایجی با کیفیت و مطابق با نظر کاربرانی با این سطح از تنوع در طرز فکر، به یکی از چالش برانگیزترین مسائل تحقیقاتی در حوزه‌ی بازیابی اطلاعات تبدیل شده‌است. یکی از مهمترین چالشها در این میان، چگونگی رتبه‌بندی نتایجی است که موتورهای جستجو در پاسخ به پرس‌وجوی کاربران پیدا می‌کنند. رضایت کاربران از موتور جستجو بستگی مستقیم به مرتبط بودن و با کیفیت بودن نتایجی دارد که در ابتدای لیست نتایج در پاسخ به پرس‌وجویشان به نمایش در می‌آید. در این پژوهش مدلها و الگوریتمهای جدیدی ارائه شده است که در سه حوزه، کاهش مشکلات مختلفی را که در رابطه با رتبه‌بندی نتایج جستجو با آنها روبرو هستیم هدف قرار می‌دهند. در بخش اول نسخه‌ی جدیدی از الگوریتم معروف PageRank که در موتور جستجوی موفق Google مورد استفاده قرار گرفته ارائه شده است. این مدل جدید بدون تحمیل پیچیدگی زمانی و هزینه‌ی حافظه‌ی اضافی، با نزدیک‌تر کردن مدل ریاضی نهفته در پس الگوریتم PageRank به واقعیت، به بهبود کیفیت نتایج جستجو کمک می‌کند. در بخش بعد روش رتبه‌بندی متفاوتی ارائه گردیده که با بکارگیری نظام تنبیه و پاداش سعی دارد تا تاثیر مشکل غنی تر شدن اغنیاء را در رتبه‌بندی نتایج جستجو کاهش دهد. در نهایت الگوریتمی تطبیق‌پذیر برای تجمیع معیارهای رتبه‌بندی مبتنی بر محتوا و مبتنی بر ساختار گراف وب ارائه شده است. این الگوریتم با استفاده از یادگیری تقویتی، از رفتار کاربران موتور جستجو در مواجهه با نتایج جستجوهای قبلی یاد می‌گیرد که چگونه نحوه‌ی تجمیع را اصلاح کند تا سطح بالاتری از رضایت کاربران را در جستجوهای بعدی به همراه داشته باشد.
    Abstract
    Abstract The volume of the web has been always increasing since the emergence of internet. The web has become one of the main sources of information for nearly all today societies. Lack of control on content publication has led to production of a huge amount of web-pages with different levels of quality, importance and accuracy. In addition, diversities among web-users such as different preferences, interests, education/cultural levels and capabilities have increased the complexity as well. Thus, searching in such a complicated and unorganized environment and finding high-quality and relevant results for diverse users has become one of the most challenging problems in Information Retrieval. One of the more important challenges in this context is ranking of the search engine results. Previous studies indicate that user satisfaction depends directly on the quality of the first 'result page', provided by the search engine. This study makes fresh contributions to the existing literature from three sources. First, it introduces a new version of Google's PageRank algorithm which improves the quality of search results by nearing its mathematical model to reality with no extra time complexity or memory cost. Second, it provides a new ranking method to reduce the "rich get richer" problem using Punishment/Reward mechanism. And finally, the last section presents an adaptive method to combine results from the content and connectivity based ranking algorithms considering user behavior. Using reinforcement learning, the algorithm learns to improve the results' combination of different ranking algorithms, to increase the user-satisfaction.