عنوان پایان‌نامه

ارائه یک روش بازیابی اطلاعات در فضای وبلاگ هابا تاکید بر مولفه ی زمان



    دانشجو در تاریخ ۱۸ شهریور ۱۳۹۳ ، به راهنمایی ، پایان نامه با عنوان "ارائه یک روش بازیابی اطلاعات در فضای وبلاگ هابا تاکید بر مولفه ی زمان" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2648;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 68085
    تاریخ دفاع
    ۱۸ شهریور ۱۳۹۳
    استاد راهنما
    مسعود رهگذر

    در سال‌های اخیر، با گسترش مفاهیم وب2، زیرساخت هایی در فضای اینترنت ایجاد شده تا کاربران بتوانند محتوای مورد نظر خود را ایجاد نموده، با یکدیگر به اشتراک گذاشته و به راحتی با دیگر کاربران ارتباط پیدا کنند. این موضوع باعث ظهور مرحله¬ای از رشد وب شده که حجم آن را نسبت به گذشته چند برابر کرده است. یکی از این زیر ساخت‌ها وبلاگ ها می باشد که در سال‌های اخیر رشد بسیار بالایی داشته است لذا با توجه به حجم عظیم وبلاگ‌ها و تعداد زیاد کاربرانی که از آن‌ها استفاده می‌کنند، برای پاسخ‌گویی به نیازهای اطلاعاتی کاربران در این نوع از شبکه‌های اجتماعی، نیازمند راهکارهای جدیدی می‌باشیم که محققان بسیاری به این موضوع پرداخته‌اند و در این زمینه مسائل مختلفی تعریف شده است مانند: بازیابی عقاید، تشخیص قطبیت عقاید یا تحلیل نظرات و بازیابی وبلاگ ها، که تمرکز ما در این پژوهش بر روی مسئله ی بازیابی وبلاگ ها می باشد. بررسی‌های ما نشان می‌دهد که با توجه به نبود مجموعه داده استاندارد در زمینه بازیابی وبلاگ‌ها برای زبان فارسی، هنوز پژوهشی در این زمینه برای زبان فارسی صورت نگرفته است. لذا در این پایانامه مجموعه داده‌ی irBlogs که مجموعه‌ایی شامل 600 هزار وبلاگ فارسی می‌باشد را تکمیل کرده ومجموعه‌داده‌ استانداری برای بازیابی وبلاگ‌ها فراهم کرده و روش پیشنهادی خود را بر روی این مجموعه داده ارزیابی نموده‌ایم. روش های مختلفی از مشخصات زمانی وبلاگ ها برای بازیابی آن ها استفاده نموده اند ولی هیچ کدام از این روش ها، مشخصات زمانی پرس‌وجوها را در نظر نگرفته اند و برای همه ی پرس‌وجوها یکسان عمل می کنند؛ اما از نظر زمانی دسته-های متفاوتی از پرس‌وجوها وجود دارند و روش های بازیابی وبلاگ ها در صورتی که مشخصات زمانی پرس‌وجوها را در نظر گرفته و برای پرس وجوهای مختلف، رفتاری متفاوت از خود نشان دهند،کارایی بهتری خواهند داشت. در ساده ترین حالت می توان پرس وجوها را بر اساس توزیع پست های مرتبط آن به دو دسته ی حساس به زمان و غیرحساس به زمان تقسیم بندی نمود.در این پایانامه سعی شده است که یک روش کارا برای پرس‌وجوهای حساس به زمان ارائه دهیم. علاوه بر آن روش رای‌دهی که یکی از روش‌های موجود برای بازیابی وبلاگ‌ها و بازیابی متخصصین است را با تعریف یک فاکتور مرتبط بودن، توسعه داده و نتایج بازیابی شده را بر اساس این فاکتور به دو سطح تقسیم کرده و در نهایت برای رتبه‌بندی کردن وبلاگ‏‌های داخل هر سطح از ترکیب مدل اسناد بزرگ و تعداد آراء یا درصد پست‌های مرتبط هر وبلاگ، استفاده شده است. برای ارزیابی روش‌های پیشنهاد شده آن‌ها را بر روی مجموعه داده تهیه شده برای زبان فارسی اجرا کرده‌ایم. نتایج حاکی این از این دارد که روش پیشنهادی در معیارهای مختلف بازیابی وبلاگ‌ها نسبت به سایر روش‌‌ها دقت بالاتری داشته است. واژه‌های کلیدی: بازیابی وبلاگ، بازیابی متخصصین، بازیابی اطلاعات، Blog Distillation، Blog Feed Search، Voting Model
    Abstract
    Recently, user generated data is growing rapidly and becoming one of the most important sources of information in the web. Blogosphere (the collection of blogs on the web) is one of the main sources of information in this category. Millions of people write about their experience and opinion in their blogs every day, and this provides a huge amount of information to be processed. Due to the importance of this information, Text REtrieval Conference (TREC) has started a new track for blog analysis including opinion mining, polarity detection and blog distillation. In this research, we focus on the blog distillation task (also known as blog feed search), which suggests relevant blogs in response to a query. The task can be summarised as “Find me a blog with a principle, recurring interest in X. For a given target X , systems should suggest blogs that are principally devoted to X over the time span of the blog, and would be recommended to subscribe to as an interesting blog about X (i.e. a user may be interested in adding it to their RSS reader ) ”. Our investigations show that because of not having standard data set about blogs retrieval for Persian language, no researches have done for Persian language in this context yet. Therefore in this thesis data set has been completed that contains 600,000 Persian blogs, and standard data set is provided for blogs retrieval and our approach has been investigated over the data set. The different methods has been used temporal properties of blogs for retrieving them, but none of these methods have paid attention to queries time properties, and the same for all queries, but base on time different set of queries exists, the blog retrieval methods will have better performance when queries` time properties are observed and their different aspect for different queries has shown. In the simplest form the queries can be divided based on their related post`s distribution in to two groups time-sensitive or time-insensitive. In this thesis has been tried to show useful methods for time-sensitive queries. Additionally voting methods has been expended which is one of the available methods for retrieving blogs and retrieving expert with defining one related factor, and retrieving result has been divided into two levels based on that factor, finally for classify weblogs in each levels Model for large documents combination and vote numbers` or percentage of blogs` related post, has been used. For investigating our approaches, we have performed them on provided data set for Persian language. Their result shows that our approaches in different criteria for retrieving weblog are more exact than other methods. Keywords: Blog Retrieval, Blog Distillaion, Expert Finding, Voting Model, Time Sensitive, Time insesitive.