عنوان پایان‌نامه

بازیابی اطلاعات توزیع شده در محیط وب



    دانشجو در تاریخ ۰۹ مهر ۱۳۸۷ ، به راهنمایی ، پایان نامه با عنوان "بازیابی اطلاعات توزیع شده در محیط وب" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 38645;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 1479
    تاریخ دفاع
    ۰۹ مهر ۱۳۸۷

    چکیده بازیابی اطلاعات عبارت است از تکنیک‌هایی جهت یافتن اسناد مرتبط با هر درخواست کاربر به طوری که مرتبط‌ترین اسناد به درخواست کاربر در رتبه بالاتری در لیست بازیابی شده قرار گیرند. اسناد موجود در یک سیستم بازیابی اطلاعات به دو صورت متمرکز و توزیع شده ذخیره می‌شوند. بازیابی اطلاعات توزیع‌شده عبارت است از بازیابی اسنادی که در یک محیط توزیع‌شده در پایگاه‌های‌داده و موتورهای بازیابی مختلف قرار دارند. استفاده از روش‌ها و تکنیک‌های سنتی بازیابی اطلاعات در اینگونه محیط‌ها به علت خاصیت توزیع‌شدگی محیط با چالش‌های فراوانی مانند مشکلات نمایه‌سازی، دقت پایین بازیابی، دقت پایین ترکیب اطلاعات و سایر موارد روبرو می‌باشد. امروزه یکی از مباحث مهم در زمینه بازیابی اطلاعات نحوه تشخیص و به کارگیری مفاهیم در عملیات بازیابی می باشد. در این تحقیق به منظور بهبود معیار دقت در سیستم‌های بازیابی اطلاعات توزیع‌شده به ارائه مجموعه تکنیک‌هایی جهت تشخیص مفاهیم و ارتباطات بین آنها می‌پردازیم. مفاهیم ساخته شده و ارتباطات بین آنها تشکیل یک گراف مفهوم می‌دهند که از آن به منظور تشخیص مجموعه مفاهیم مرتبط با پرس‌وجوی کاربران جهت افزایش دقت ترکیب در سیستم‌های بازیابی اطلاعات توزیع‌شده استفاده می‌شود. در این تحقیق کیفیت گراف مفهوم ساخته شده ارزیابی می‌شود و یک معماری پیشنهادی جهت ترکیب اطلاعات در سیستم‌های بازیابی اطلاعات توزیع‌شده بر اساس این گراف ارائه و ارزیابی می‌شود. برای ساخت گراف مفهوم از مجموعه اسناد پیکره ویکی‌پدیا به علت محتوای غنی آنها استفاده شده است. همچنین به منظور ارزیابی کارایی گراف مفهوم در افزایش دقت سیستم‌های بازیابی اطلاعات توزیع‌شده از دو پیکره CACM و CSIRO استفاده شده است. پیکره CSIRO یک پیکره استاندارد از اسناد وب می‌باشد که اخیرا در بخش وب TREC-9 به عنوان پیکره اصلی مورد استفاده قرار گرفته است. جهت اجرای عملی آزمایشات و پیاده‌سازی‌های مورد نیاز از موتور جستجوی متن باز Lemur و ابزار Weka استفاده شده است. نتایج بدست آمده نشان می‌دهد که استفاده از گراف مفهوم در مرحله ترکیب اطلاعات باعث افزایش 6 درصدی دقت بازیابی با توجه به معیار MAP می شود.
    Abstract
    Abstract Information retrieval is a set of techniques to find relevant documents in the upper ranks in the retrieved lists of documents. In information retrieval systems documents can be stored in a single database, centralized environment, or in a set of databases, distributed environment. Distribution means that the documents are stored separately in different data sources. Each data source has its database and retrieval system that can cooperate with other systems in the environment. So, distributed information retrieval (DIR) is information retrieval among documents in a distributed environment. There are some challenges in using traditional retrieval techniques in these environments like indexing problems, low retrieval precision and others. Nowadays detecting and using concepts in the retrieval process is one of the most important trends of research in the area of information retrieval. In this work for the purpose of increasing the precision measure in DIR systems, we present a set of techniques to detect concepts and their relationships. The concepts and the relationships between them create a concept graph. This graph is used to find the concepts that are related to user query to help the fusion part of DIR systems. We evaluate the quality of our concept graph and using this graph we suggest and evaluate an architecture to merge the results of retrieval systems. To create the concept graph we use Wikipedia rich documents and for the evaluation purpose we use CACM and CSIRO test collections. The CSIRO collection is a standard test collection that is recently used in TREC-9. We also use the Lemur open source retrieval system and Weka open source toolkit in our implementations. Keywords: Information Retrieval, Information Extraction, Concept Graph, MetaSearch, Federated Search