عنوان پایاننامه
بازیابی اطلاعات بین زبانی در زبانهای با منابع محدود
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2942;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74905
- تاریخ دفاع
- ۲۹ دی ۱۳۹۴
- دانشجو
- راضیه رحیمی
- استاد راهنما
- آزاده شاکری
- چکیده
- سیستمهای بازیابی اطلاعات بین زبانی امکان بازیابی سندها به زبانهای متفاوت از زبان پرسوجوی کاربران را فراهم میکنند و نیاز به آنها با گسترش صفحه های وب د ر زبانهای مختلف افزایش یافته است. بازیابی اطلاعات بین زبانی نیازمند راهکار برای دو چالش اساسی، (1) بدست آوردن دانش ترجمه و (2) استفاده از دانش ترجمه در مدلهای بازیابی، میباشد. حل کردن این چالشها زمانی که منابع زبانشناسی مربوط به زبانهای درگیر در بازیابی محدود باشند، دشوارتر نیز میگردد. اگرچه کارایی بازیابی اطلاعات بین زبانی برای زبانهای با منابع زبانشناسی غنی به سطح قابل قبولی دست یافتهاست که حتی در برخی موارد بالاتر از کارایی بازیابی اطلاعات تک زبانه است، بازیابی اطلاعات بین زبانی برای زبانهای با منابع محدود، هنوز نیازمند بررسی و بهبود میباشد. در این رساله، به منظور افزایش کارایی بازیابی اطلاعات بین زبانی) و به طور کلی چندزبانه) برای زبانهای با منابع محدود، مولفه های مختلف یک چارچوب بازیابی اطلاعات بین زبانی را بررسی مینماییم. برای بدست آوردن دانش ترجمه، ابتدا راهکاری به کمک روشهای مبتنی بر یادگیری برای ایجاد پیکره های تطبیقی به منظور گسترش منابع زبانی ارایه میدهیم. در ادامه، استخراج ترجمه از پیکره تطبیقی را به کمک روش جدید بر مبنای مدل زبانی انجام میدهیم. ترجمه های احتمالی بدست آمده باید در مدلهای بازیابی استفاده شوند. برای این منظور، یک نمایش جدید چندزبانه از سندها با یکپارچه سازی مناسب ترجمه به زبانهای مختلف، ارایه میدهیم. در نهایت، مدلهای بازیابی اطلاعات بین زبانی را به کمک روش تحلیل اصل موضوعی بررسی میکنیم. روشهای ارایه شده برای قسمتهای مختلف چارچوب بازیابی اطلاعات بین زبانی، کارایی بازیابی را افزایش میدهند. منبع ترجمه ایجاد شده به دلیل پوشش دامنه های مختلف و داشتن همترازی هایی که با اندازه گیری شباهت سندها با توجه به ویژگیهای زبانهای آنها ایجاد شده اند، برای بازیابی اطلاعات بسیار مناسب میباشد. همچنین، روش ارایه شده برای استخراج ترجمه، به دلیل زیرساخت احتمالی آن، با انتخاب ترجمه های بهتر و وزنده ی مناسبتر، به بهبود کارایی بازیابی اطلاعات کمک میکند. مدل زبانی چندزبانه پیشنهاد شده برای سندها نیز کارایی بازیابی اطلاعات چندزبانه را بهبود میدهد که بیشتر به این دلیل است که امکان تخمین دقیقتر آمار کلمه ها به کمک همه سندهای یک پیکره چندزبانه را فراهم میکند و برای شرایط معمول که در آن منابع ترجمه کلمه های پیکره را به طور کامل پوشش نمیدهند، نیز تنظیم سازی شده است. ارزیابی تحلیلی مدلهای موجود برای بازیابی اطلاعات بین زبانی نیز مسیر توسعه مدلهای بهتر بازیابی اطلاعات بین زبانی را هموار میسازد. واژه های کلیدی: بازیابی اطلاعات بین زبانی، بازیابی اطلاعات چندزبانه، چارچوب مدل زبانی، پیکره های تطبیقی، مدلهای ترجمه، تحلیل اصل موضوعی مدلهای بازیابی
- Abstract
- Cross-Language Information Retrieval (CLIR) refers to the task of retrieving documents in languages different from that of the user's query. CLIR systems have become increasingly important with the rapid growth of webpages in different languages. Two major challenges of performing CLIR are: (1) how to obtain translation knowledge, and (2) how to use translation knowledge in retrieval models. These challenges are even more daunting when limited linguistic resources are available to match query and document languages. Although cross-language information retrieval for resource-rich languages has shown a remarkable performance that in some cases exceeded even the performance of monolingual information retrieval, it requires further investigations for resource-limited languages. In this thesis, we study how to improve the performance of cross-language (and in general multilingual) information retrieval for resource-limited languages by investigating different components of a CLIR system. To obtain translation knowledge, we first propose a learning-based method for building comparable corpora. Translation knowledge from comparable corpora is then extracted using a new language modeling approach. The next step is to use the obtained translation knowledge in retrieval models. In this regard, we propose a multilingual language model for document representation by integration of translation knowledge into traditional models for document language models. Finally, we present an analytical study of using translation knowledge in CLIR models. The proposed methods for different components of a CLIR system improve the retrieval performance. The built translation resource is highly suitable for the purpose of information retrieval due to the coverage of documents in different domains, and containing alignments which are built by measuring document similarities according to the properties of the documents' languages. In addition, the proposed method for translation extraction, due to its sound probabilistic basis, improves the retrieval performance by extraction of better translations with more appropriate weights compared to the existing methods. The proposed multilingual language model improves the performance of multilingual information retrieval, mainly because it allows to estimate word statistics more accurately using all documents of a multilingual corpus, and is also specialized for the common case where available translation resources do not fully cover all terms of the collection. Our analytical evaluation of current CLIR models paves the way for the development of better CLIR models. Keywords: Cross-language information retrieval, Language modeling framework, Comparable corpora, Translation models, Axiomatic analysis