عنوان پایاننامه
بهبود بازدهی موتورهای جستجو با تکیه بر تکنیکهای تحلیلی گراف وب
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 38414;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1492
- تاریخ دفاع
- ۱۳ اسفند ۱۳۸۶
- دانشجو
- پدرام قدس نیا
- استاد راهنما
- ناصر یزدانی
- چکیده
- چکیده از زمان پیدایش شبکهی جهانی اینترنت تا کنون حجم وب همواره رو به افزایش بوده است. استفاده از گسترهی اطلاعاتی وب یکی از نیازهای روزمره انسانها در جوامع بشری امروزی را تشکیل میدهد. علاوه بر اینکه عدم وجود نظارت و کنترل بر نحوهی تولید محتوا در وب، منجر به تولید اطلاعات فراوانی با سطوح کیفیت، اهمیت و درستی متفاوت شده، استفادهکنندگان از وب را نیز قشر وسیعی از کاربران با سلایق، علایق، نقطه نظرات، تحصیلات، تواناییها و سطوح فرهنگی متنوع تشکیل میدهند. جستجو در این بازار آشفته و یافتن نتایجی با کیفیت و مطابق با نظر کاربرانی با این سطح از تنوع در طرز فکر، به یکی از چالش برانگیزترین مسائل تحقیقاتی در حوزهی بازیابی اطلاعات تبدیل شدهاست. یکی از مهمترین چالشها در این میان، چگونگی رتبهبندی نتایجی است که موتورهای جستجو در پاسخ به پرسوجوی کاربران پیدا میکنند. رضایت کاربران از موتور جستجو بستگی مستقیم به مرتبط بودن و با کیفیت بودن نتایجی دارد که در ابتدای لیست نتایج در پاسخ به پرسوجویشان به نمایش در میآید. در این پژوهش مدلها و الگوریتمهای جدیدی ارائه شده است که در سه حوزه، کاهش مشکلات مختلفی را که در رابطه با رتبهبندی نتایج جستجو با آنها روبرو هستیم هدف قرار میدهند. در بخش اول نسخهی جدیدی از الگوریتم معروف PageRank که در موتور جستجوی موفق Google مورد استفاده قرار گرفته ارائه شده است. این مدل جدید بدون تحمیل پیچیدگی زمانی و هزینهی حافظهی اضافی، با نزدیکتر کردن مدل ریاضی نهفته در پس الگوریتم PageRank به واقعیت، به بهبود کیفیت نتایج جستجو کمک میکند. در بخش بعد روش رتبهبندی متفاوتی ارائه گردیده که با بکارگیری نظام تنبیه و پاداش سعی دارد تا تاثیر مشکل غنی تر شدن اغنیاء را در رتبهبندی نتایج جستجو کاهش دهد. در نهایت الگوریتمی تطبیقپذیر برای تجمیع معیارهای رتبهبندی مبتنی بر محتوا و مبتنی بر ساختار گراف وب ارائه شده است. این الگوریتم با استفاده از یادگیری تقویتی، از رفتار کاربران موتور جستجو در مواجهه با نتایج جستجوهای قبلی یاد میگیرد که چگونه نحوهی تجمیع را اصلاح کند تا سطح بالاتری از رضایت کاربران را در جستجوهای بعدی به همراه داشته باشد.
- Abstract
- Abstract The volume of the web has been always increasing since the emergence of internet. The web has become one of the main sources of information for nearly all today societies. Lack of control on content publication has led to production of a huge amount of web-pages with different levels of quality, importance and accuracy. In addition, diversities among web-users such as different preferences, interests, education/cultural levels and capabilities have increased the complexity as well. Thus, searching in such a complicated and unorganized environment and finding high-quality and relevant results for diverse users has become one of the most challenging problems in Information Retrieval. One of the more important challenges in this context is ranking of the search engine results. Previous studies indicate that user satisfaction depends directly on the quality of the first 'result page', provided by the search engine. This study makes fresh contributions to the existing literature from three sources. First, it introduces a new version of Google's PageRank algorithm which improves the quality of search results by nearing its mathematical model to reality with no extra time complexity or memory cost. Second, it provides a new ranking method to reduce the "rich get richer" problem using Punishment/Reward mechanism. And finally, the last section presents an adaptive method to combine results from the content and connectivity based ranking algorithms considering user behavior. Using reinforcement learning, the algorithm learns to improve the results' combination of different ranking algorithms, to increase the user-satisfaction.