عنوان پایاننامه
خوشه بندی صفحات وب سایت با استفاده از داده های محتوایی، ساختاری و بازدید
- رشته تحصیلی
- مهندسی صنایع
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: 2626;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 63091
- تاریخ دفاع
- ۱۱ خرداد ۱۳۹۳
- دانشجو
- روح اله جعفری مرندی
- استاد راهنما
- عباس کرامتی
- چکیده
- بزرگی وبسایت ها و تعداد صفات زیاد آن ها نه تنها باعث شده است که بازدید کنندگان در بسیاری از موارد کلافه شده و نتوانند چیزی را که به دنبال آن هستند پیدا کنند، بلکه موجب شده است که مدیریت وب سایت ها برای دارندگان آن ها نیز غیر ممکن شود. در سال های اخیر داده کاوی و وب کاوی (خوشه بندی) برای حل این پیچیدگی ها در دنیای وب بسیار نقش حیاتی را بازی کرده است. دو مسئله ای که خوشهبندی صفحات وب در تلاش برای حل آن ها بوده است شامل استخراج علاقهمندی های بازدید کنندگان و کمک به دارندگان برای شناخت بهتر سایت ها بوده است. مطالعه حاضر در این زمینه مواردی را مورد بررسی قرار داده است. به خاطر مسئله ای که در مورد ارزیابی عملکرد خوشه بندی وجود دارد، در این مطالعه یک دیدگاه جدید برای استفاده کنندگان از خوشه بندی صفحات وب ارائه شده است. با توجه به این دیدگاه، یک داده کاو نیاز است تا گام هایی را برای کسب اطمینان از مناسبت داده های انتخاب شده برای خوشهبندی صفحات بردارد. همچنین، با توجه به مطالعه ادبیات موضوع انجام شده، بحث مناسبت داده های مورد استفاده برای مسائل مختلف خوشهبندی که انجام می گیرد هیچ وقت مطرح نشده است. با استفاده از داده های یک مورد مطالعاتی (یک وبسایت ایرانی)، نتایج این مطالعه نشان داد که فرض هایی که در مورد استفاده از انواع داده در ادبیات موضوع وب¬کاوی وجود دارد بهتر است مورد بررسی بیشتری قرار بگیرد. در مورد دو مسئله انتخاب شده در این مطالعه نشان داده شد که انتخاب داده های مختلف می تواند تاثیر بسیار زیادی بر روی عملکرد و نتایج نهایی خوشه بندی داشته باشد. در نهایت نیز، در کنار بررسی تاثیر انواع داده بر عملکرد، هر دو مسئله انتخاب شده برای خوشهبندی صفحات وب تا به انتها انجام و مورد بررسی قرار گرفتند. در یک بخش جذاب این مطالعه، با استفاده از نتایج خوشهبندی برای استخراج علاقهمندیهای بازدیدکنندگان، یک سیستم پیشنهاددهنده ساده ارائه شد. سیستم پیشنهاد دهنده ذکر شده بر روی وبسایت نصب و تاثیر وجود آن بر روی وب سایت نیز مورد ارزیابی قرار گرفت.
- Abstract
- The expansion of websites and their too many pages not only have pushed their visitors to frustration but also have made the websites ever more difficult to be managed and controlled by their owners. In the past few years data mining (clustering) has been of great help so as to assist website’s owner to address the complexities related to owners’ extracting their visitor’s preferences and their coming to know their websites properly. In this line of literature, this study contains several parts and features. Due to the clustering tasks’ complication not being able to be tested (unlike Clustering), this study aims at proposing a mind-set by which one before taking any other actions has to go through some steps in order to choose the best set of data. Moreover, looking at the literature, one can see the question about the suitability of types of data (content, structure and usage) and the task they are being used for has never been raised. Using an Iranian website’s data, a field study and SOM algorithm, it was presented that the popular belief about the type of data and the task they are appropriate for should be open to doubt. It was also depicted that different sets of data in two chosen tasks – webpage profiling and extracting visitors’ preference - can influence the results tremendously. Additionally, apart from observing the influence of different sets of data, both data mining tasks were performed to the end and the results are presented. Additionally, using the second clustering task’s results (the extraction of visitors’ preferences) a novel recommendation system is presented. The recommendation system in question were installed in the website for more than a month and its influence on the whole website is observed and analyses. Keywords: Webpage clustering, Self-Organizing Map (SOM), Recommendation System, Content Data, Structure Data, Usage Data