عنوان پایاننامه
ارائه یک روش بازیابی اطلاعات در فضای وبلاگ هابا تاکید بر مولفه ی زمان
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2648;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 68085
- تاریخ دفاع
- ۱۸ شهریور ۱۳۹۳
- دانشجو
- محمدصادق زاهدی
- استاد راهنما
- مسعود رهگذر
- چکیده
- در سالهای اخیر، با گسترش مفاهیم وب2، زیرساخت هایی در فضای اینترنت ایجاد شده تا کاربران بتوانند محتوای مورد نظر خود را ایجاد نموده، با یکدیگر به اشتراک گذاشته و به راحتی با دیگر کاربران ارتباط پیدا کنند. این موضوع باعث ظهور مرحله¬ای از رشد وب شده که حجم آن را نسبت به گذشته چند برابر کرده است. یکی از این زیر ساختها وبلاگ ها می باشد که در سالهای اخیر رشد بسیار بالایی داشته است لذا با توجه به حجم عظیم وبلاگها و تعداد زیاد کاربرانی که از آنها استفاده میکنند، برای پاسخگویی به نیازهای اطلاعاتی کاربران در این نوع از شبکههای اجتماعی، نیازمند راهکارهای جدیدی میباشیم که محققان بسیاری به این موضوع پرداختهاند و در این زمینه مسائل مختلفی تعریف شده است مانند: بازیابی عقاید، تشخیص قطبیت عقاید یا تحلیل نظرات و بازیابی وبلاگ ها، که تمرکز ما در این پژوهش بر روی مسئله ی بازیابی وبلاگ ها می باشد. بررسیهای ما نشان میدهد که با توجه به نبود مجموعه داده استاندارد در زمینه بازیابی وبلاگها برای زبان فارسی، هنوز پژوهشی در این زمینه برای زبان فارسی صورت نگرفته است. لذا در این پایانامه مجموعه دادهی irBlogs که مجموعهایی شامل 600 هزار وبلاگ فارسی میباشد را تکمیل کرده ومجموعهداده استانداری برای بازیابی وبلاگها فراهم کرده و روش پیشنهادی خود را بر روی این مجموعه داده ارزیابی نمودهایم. روش های مختلفی از مشخصات زمانی وبلاگ ها برای بازیابی آن ها استفاده نموده اند ولی هیچ کدام از این روش ها، مشخصات زمانی پرسوجوها را در نظر نگرفته اند و برای همه ی پرسوجوها یکسان عمل می کنند؛ اما از نظر زمانی دسته-های متفاوتی از پرسوجوها وجود دارند و روش های بازیابی وبلاگ ها در صورتی که مشخصات زمانی پرسوجوها را در نظر گرفته و برای پرس وجوهای مختلف، رفتاری متفاوت از خود نشان دهند،کارایی بهتری خواهند داشت. در ساده ترین حالت می توان پرس وجوها را بر اساس توزیع پست های مرتبط آن به دو دسته ی حساس به زمان و غیرحساس به زمان تقسیم بندی نمود.در این پایانامه سعی شده است که یک روش کارا برای پرسوجوهای حساس به زمان ارائه دهیم. علاوه بر آن روش رایدهی که یکی از روشهای موجود برای بازیابی وبلاگها و بازیابی متخصصین است را با تعریف یک فاکتور مرتبط بودن، توسعه داده و نتایج بازیابی شده را بر اساس این فاکتور به دو سطح تقسیم کرده و در نهایت برای رتبهبندی کردن وبلاگهای داخل هر سطح از ترکیب مدل اسناد بزرگ و تعداد آراء یا درصد پستهای مرتبط هر وبلاگ، استفاده شده است. برای ارزیابی روشهای پیشنهاد شده آنها را بر روی مجموعه داده تهیه شده برای زبان فارسی اجرا کردهایم. نتایج حاکی این از این دارد که روش پیشنهادی در معیارهای مختلف بازیابی وبلاگها نسبت به سایر روشها دقت بالاتری داشته است. واژههای کلیدی: بازیابی وبلاگ، بازیابی متخصصین، بازیابی اطلاعات، Blog Distillation، Blog Feed Search، Voting Model
- Abstract
- Recently, user generated data is growing rapidly and becoming one of the most important sources of information in the web. Blogosphere (the collection of blogs on the web) is one of the main sources of information in this category. Millions of people write about their experience and opinion in their blogs every day, and this provides a huge amount of information to be processed. Due to the importance of this information, Text REtrieval Conference (TREC) has started a new track for blog analysis including opinion mining, polarity detection and blog distillation. In this research, we focus on the blog distillation task (also known as blog feed search), which suggests relevant blogs in response to a query. The task can be summarised as “Find me a blog with a principle, recurring interest in X. For a given target X , systems should suggest blogs that are principally devoted to X over the time span of the blog, and would be recommended to subscribe to as an interesting blog about X (i.e. a user may be interested in adding it to their RSS reader ) ”. Our investigations show that because of not having standard data set about blogs retrieval for Persian language, no researches have done for Persian language in this context yet. Therefore in this thesis data set has been completed that contains 600,000 Persian blogs, and standard data set is provided for blogs retrieval and our approach has been investigated over the data set. The different methods has been used temporal properties of blogs for retrieving them, but none of these methods have paid attention to queries time properties, and the same for all queries, but base on time different set of queries exists, the blog retrieval methods will have better performance when queries` time properties are observed and their different aspect for different queries has shown. In the simplest form the queries can be divided based on their related post`s distribution in to two groups time-sensitive or time-insensitive. In this thesis has been tried to show useful methods for time-sensitive queries. Additionally voting methods has been expended which is one of the available methods for retrieving blogs and retrieving expert with defining one related factor, and retrieving result has been divided into two levels based on that factor, finally for classify weblogs in each levels Model for large documents combination and vote numbers` or percentage of blogs` related post, has been used. For investigating our approaches, we have performed them on provided data set for Persian language. Their result shows that our approaches in different criteria for retrieving weblog are more exact than other methods. Keywords: Blog Retrieval, Blog Distillaion, Expert Finding, Voting Model, Time Sensitive, Time insesitive.