عنوان پایان‌نامه

بازیابی اطلاعات بین زبانی فارسی-انگلیسی با استفاده از پیکره¬های موازی



    دانشجو در تاریخ ۱۶ شهریور ۱۳۹۲ ، به راهنمایی ، پایان نامه با عنوان "بازیابی اطلاعات بین زبانی فارسی-انگلیسی با استفاده از پیکره¬های موازی" را دفاع نموده است.


    مقطع تحصیلی
    کارشناسی ارشد
    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2318;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 59687
    تاریخ دفاع
    ۱۶ شهریور ۱۳۹۲
    استاد راهنما
    هشام فیلی, آزاده شاکری

    به واسطه افزایش اسناد متنی غیر انگلیسی در وب، یکی از حوزه‌های بازیابی اطلاعات که در سال‌های اخیر مورد توجه زیادی قرار گرفته است و پیشرفت‌های قابل توجهی در آن روی داده است، بازیابی اطلاعات بین زبانی است. با توجه به متفاوت بودن زبان پرس‌وجوها و اسناد در بازیابی اطلاعات بین زبانی، به طور معمول ترجمه یکی از بخش‌های اصلی سیستم‌های بازیابی اطلاعات بین زبانی است. معمول‌ترین روش در بازیابی اطلاعات بین زبانی، ترجمه پرس‌وجوها به زبان اسناد می‌باشد. پیکره‌های موازی از باارزش‌ترین و با کیفیت‌ترین منابع برای ترجمه پرس‌وجوها می‌باشند. در این پایان‌نامه استفاده از پیکره‌های موازی در بازیابی اطلاعات بین زبانی انگلیسی-فارسی مورد بررسی قرار گرفته است. بدین منظور از روش‌های موجود در زمینه ماشین ترجمه برای استخراج ترجمه پرس‌وجوها از پیکره موازی استفاده شده است. پس از استخراج ترجمه پرس‌وجوها، روشی برای به کارگیری روش‌های یادگیری رتبه‌بندی به منظور ساختن یک مدل رتبه‌بندی اسناد در بازیابی اطلاعات بین زبانی ارائه شده است. این روش ابتدا ویژگی‌های تک زبانی را به ویژگی‌های بین زبانی نگاشت می‌کند و سپس از این ویژگی‌ها برای ساخت یک مدل رتبه‌بندی استفاده می‌کند. در بخش دیگری از این پژوهش، برای افزایش کارایی بازیابی اطلاعات بین زبانی، دو روش مختلف برای بهره‌گیری از پیکره تطبیقی و واژه‌نامه در کنار پیکره موازی ارائه شده است. روش اول با استفاده از روش نگاشت ویژگی معرفی شده در این پژوهش، ویژگی‌های مختلفی را با استفاده از منابع مختلف ترجمه استخراج کرده و از این مجموعه ویژگی‌ها برای ساخت مدل رتبه‌بندی اسناد به کمک روش‌های یادگیری رتبه‌بندی استفاده می‌کند. روش دوم با استفاده از ویژگی‌های استخراج شده از منابع مختلف ترجمه، یک مدل رتبه‌بندی ترجمه برای ترجمه دقیق‌تر کلمات پرس‌وجو ایجاد می‌کند. پس از ترجمه پرس‌وجوها، این روش از روش‌های متداول بازیابی اطلاعات برای بازیابی اسناد مرتبط استفاده می‌کند. نتایج به دست آمده حاکی از دقت بالای روش یادگیری رتبه‌بندی در کاربرد بازیابی اطلاعات بین زبانی است. همچنین، نتایج حاصل نشان دهنده این است که دو روش ترکیب منابع ترجمه نیز به خوبی توانسته‌اند کارایی روش‌های بازیابی اطلاعات بین زبانی مبتنی بر یک منبع ترجمه را بهبود بخشند.
    Abstract
    In recent years, with the growth of non-English text documents on the web, Cross Language Information Retrieval (CLIR) as one of the research areas of information retrieval has attracted much attention. Because of the difference between queries and documents languages in CLIR, translation is usually one of the main parts of CLIR systems. The most common method in CLIR is translating queries to the language of documents. Parallel corpora are valuable and high quality resources for extracting query translations. In this thesis, using parallel corpora for English-Persian CLIR has been studied. To do so, IBM model 1 has been employed for extracting translations of queries from parallel corpora. After extracting the translations of queries, in this research, a method is proposed that employs Learning to Rank (LTR) approach for constructing a document ranking model in CLIR. This method first maps monolingul features to cross-lingual ones and uses these features for constructing a ranking model. In another part of this research, in order to improve the accuracy of CLIR, two different methods that exploit other translation resources beside parallel corpora have been proposed. The first method uses the feature mapping method proposed in this research, for extracting different features from different translation resources and employs LTR methods for constructing a document ranking model from these features. The second method uses the features extracted from different translation resources for constrcuting a translation ranking model with the aim of translating query words more accurately. After translating the queries, this method uses standard information retrieval methods for retrieving related documents. Experimental results show the high accuracy of LTR methods in CLIR. The results also show that translation combination methods improve the accuracy of single resource based methods.