عنوان پایاننامه
بازیابی اطلاعات بین زبانی فارسی-انگلیسی با استفاده از پیکره¬های موازی
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2318;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 59687
- تاریخ دفاع
- ۱۶ شهریور ۱۳۹۲
- دانشجو
- حسین آذربنیاد
- استاد راهنما
- هشام فیلی, آزاده شاکری
- چکیده
- به واسطه افزایش اسناد متنی غیر انگلیسی در وب، یکی از حوزههای بازیابی اطلاعات که در سالهای اخیر مورد توجه زیادی قرار گرفته است و پیشرفتهای قابل توجهی در آن روی داده است، بازیابی اطلاعات بین زبانی است. با توجه به متفاوت بودن زبان پرسوجوها و اسناد در بازیابی اطلاعات بین زبانی، به طور معمول ترجمه یکی از بخشهای اصلی سیستمهای بازیابی اطلاعات بین زبانی است. معمولترین روش در بازیابی اطلاعات بین زبانی، ترجمه پرسوجوها به زبان اسناد میباشد. پیکرههای موازی از باارزشترین و با کیفیتترین منابع برای ترجمه پرسوجوها میباشند. در این پایاننامه استفاده از پیکرههای موازی در بازیابی اطلاعات بین زبانی انگلیسی-فارسی مورد بررسی قرار گرفته است. بدین منظور از روشهای موجود در زمینه ماشین ترجمه برای استخراج ترجمه پرسوجوها از پیکره موازی استفاده شده است. پس از استخراج ترجمه پرسوجوها، روشی برای به کارگیری روشهای یادگیری رتبهبندی به منظور ساختن یک مدل رتبهبندی اسناد در بازیابی اطلاعات بین زبانی ارائه شده است. این روش ابتدا ویژگیهای تک زبانی را به ویژگیهای بین زبانی نگاشت میکند و سپس از این ویژگیها برای ساخت یک مدل رتبهبندی استفاده میکند. در بخش دیگری از این پژوهش، برای افزایش کارایی بازیابی اطلاعات بین زبانی، دو روش مختلف برای بهرهگیری از پیکره تطبیقی و واژهنامه در کنار پیکره موازی ارائه شده است. روش اول با استفاده از روش نگاشت ویژگی معرفی شده در این پژوهش، ویژگیهای مختلفی را با استفاده از منابع مختلف ترجمه استخراج کرده و از این مجموعه ویژگیها برای ساخت مدل رتبهبندی اسناد به کمک روشهای یادگیری رتبهبندی استفاده میکند. روش دوم با استفاده از ویژگیهای استخراج شده از منابع مختلف ترجمه، یک مدل رتبهبندی ترجمه برای ترجمه دقیقتر کلمات پرسوجو ایجاد میکند. پس از ترجمه پرسوجوها، این روش از روشهای متداول بازیابی اطلاعات برای بازیابی اسناد مرتبط استفاده میکند. نتایج به دست آمده حاکی از دقت بالای روش یادگیری رتبهبندی در کاربرد بازیابی اطلاعات بین زبانی است. همچنین، نتایج حاصل نشان دهنده این است که دو روش ترکیب منابع ترجمه نیز به خوبی توانستهاند کارایی روشهای بازیابی اطلاعات بین زبانی مبتنی بر یک منبع ترجمه را بهبود بخشند.
- Abstract
- In recent years, with the growth of non-English text documents on the web, Cross Language Information Retrieval (CLIR) as one of the research areas of information retrieval has attracted much attention. Because of the difference between queries and documents languages in CLIR, translation is usually one of the main parts of CLIR systems. The most common method in CLIR is translating queries to the language of documents. Parallel corpora are valuable and high quality resources for extracting query translations. In this thesis, using parallel corpora for English-Persian CLIR has been studied. To do so, IBM model 1 has been employed for extracting translations of queries from parallel corpora. After extracting the translations of queries, in this research, a method is proposed that employs Learning to Rank (LTR) approach for constructing a document ranking model in CLIR. This method first maps monolingul features to cross-lingual ones and uses these features for constructing a ranking model. In another part of this research, in order to improve the accuracy of CLIR, two different methods that exploit other translation resources beside parallel corpora have been proposed. The first method uses the feature mapping method proposed in this research, for extracting different features from different translation resources and employs LTR methods for constructing a document ranking model from these features. The second method uses the features extracted from different translation resources for constrcuting a translation ranking model with the aim of translating query words more accurately. After translating the queries, this method uses standard information retrieval methods for retrieving related documents. Experimental results show the high accuracy of LTR methods in CLIR. The results also show that translation combination methods improve the accuracy of single resource based methods.