عنوان پایاننامه
بازیابی اطلاعات توزیع شده در محیط وب
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 38645;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1479
- تاریخ دفاع
- ۰۹ مهر ۱۳۸۷
- دانشجو
- هادی امیری ابراهیم آبادی
- استاد راهنما
- مسعود رهگذر
- چکیده
- چکیده بازیابی اطلاعات عبارت است از تکنیکهایی جهت یافتن اسناد مرتبط با هر درخواست کاربر به طوری که مرتبطترین اسناد به درخواست کاربر در رتبه بالاتری در لیست بازیابی شده قرار گیرند. اسناد موجود در یک سیستم بازیابی اطلاعات به دو صورت متمرکز و توزیع شده ذخیره میشوند. بازیابی اطلاعات توزیعشده عبارت است از بازیابی اسنادی که در یک محیط توزیعشده در پایگاههایداده و موتورهای بازیابی مختلف قرار دارند. استفاده از روشها و تکنیکهای سنتی بازیابی اطلاعات در اینگونه محیطها به علت خاصیت توزیعشدگی محیط با چالشهای فراوانی مانند مشکلات نمایهسازی، دقت پایین بازیابی، دقت پایین ترکیب اطلاعات و سایر موارد روبرو میباشد. امروزه یکی از مباحث مهم در زمینه بازیابی اطلاعات نحوه تشخیص و به کارگیری مفاهیم در عملیات بازیابی می باشد. در این تحقیق به منظور بهبود معیار دقت در سیستمهای بازیابی اطلاعات توزیعشده به ارائه مجموعه تکنیکهایی جهت تشخیص مفاهیم و ارتباطات بین آنها میپردازیم. مفاهیم ساخته شده و ارتباطات بین آنها تشکیل یک گراف مفهوم میدهند که از آن به منظور تشخیص مجموعه مفاهیم مرتبط با پرسوجوی کاربران جهت افزایش دقت ترکیب در سیستمهای بازیابی اطلاعات توزیعشده استفاده میشود. در این تحقیق کیفیت گراف مفهوم ساخته شده ارزیابی میشود و یک معماری پیشنهادی جهت ترکیب اطلاعات در سیستمهای بازیابی اطلاعات توزیعشده بر اساس این گراف ارائه و ارزیابی میشود. برای ساخت گراف مفهوم از مجموعه اسناد پیکره ویکیپدیا به علت محتوای غنی آنها استفاده شده است. همچنین به منظور ارزیابی کارایی گراف مفهوم در افزایش دقت سیستمهای بازیابی اطلاعات توزیعشده از دو پیکره CACM و CSIRO استفاده شده است. پیکره CSIRO یک پیکره استاندارد از اسناد وب میباشد که اخیرا در بخش وب TREC-9 به عنوان پیکره اصلی مورد استفاده قرار گرفته است. جهت اجرای عملی آزمایشات و پیادهسازیهای مورد نیاز از موتور جستجوی متن باز Lemur و ابزار Weka استفاده شده است. نتایج بدست آمده نشان میدهد که استفاده از گراف مفهوم در مرحله ترکیب اطلاعات باعث افزایش 6 درصدی دقت بازیابی با توجه به معیار MAP می شود.
- Abstract
- Abstract Information retrieval is a set of techniques to find relevant documents in the upper ranks in the retrieved lists of documents. In information retrieval systems documents can be stored in a single database, centralized environment, or in a set of databases, distributed environment. Distribution means that the documents are stored separately in different data sources. Each data source has its database and retrieval system that can cooperate with other systems in the environment. So, distributed information retrieval (DIR) is information retrieval among documents in a distributed environment. There are some challenges in using traditional retrieval techniques in these environments like indexing problems, low retrieval precision and others. Nowadays detecting and using concepts in the retrieval process is one of the most important trends of research in the area of information retrieval. In this work for the purpose of increasing the precision measure in DIR systems, we present a set of techniques to detect concepts and their relationships. The concepts and the relationships between them create a concept graph. This graph is used to find the concepts that are related to user query to help the fusion part of DIR systems. We evaluate the quality of our concept graph and using this graph we suggest and evaluate an architecture to merge the results of retrieval systems. To create the concept graph we use Wikipedia rich documents and for the evaluation purpose we use CACM and CSIRO test collections. The CSIRO collection is a standard test collection that is recently used in TREC-9. We also use the Lemur open source retrieval system and Weka open source toolkit in our implementations. Keywords: Information Retrieval, Information Extraction, Concept Graph, MetaSearch, Federated Search