عنوان پایان‌نامه

کاوش وب برای بازیابی اطلاعات بین زبانی فارسی-انگلیسی



    دانشجو در تاریخ ۱۴ تیر ۱۳۹۱ ، به راهنمایی ، پایان نامه با عنوان "کاوش وب برای بازیابی اطلاعات بین زبانی فارسی-انگلیسی" را دفاع نموده است.


    محل دفاع
    کتابخانه پردیس 2 فنی شماره ثبت: E 2153;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 55456
    تاریخ دفاع
    ۱۴ تیر ۱۳۹۱
    دانشجو
    زهرا رحیمی
    استاد راهنما
    آزاده شاکری

    باگسترش روزافزون اطلاعات به زبان‌های مختلف دردنیای وب وافزایش نیازکاربران به استفاده از اطلاعات به زبان‌های مختلف،سیستم‌های بازیابی اطلاعات بین زبانی اهمیت ویژه‌ای پیداکرده‌اند. سیستم‌های بازیابی اطلاعات بین زبانی سیستم‌هایی هستندکه بتوانندازمرزبین زبان‌ها عبورکنند. درچنین سیستم‌هایی اسناد و پرس‌ و‌جو در دوزبان مختلف هستند، به همین دلیل امکان تطابق مستقیم پرس‌و‌جو و اسناد وجود ندارد وابتدا باید آنها را به زبانی مشترک ترجمه کرد. برای ترجمه پرس‌ و‌ جوها منابع ترجمه مختلفی مورد استفاده قرار می‌گیرد، ازجمله واژه‌نامه‌های دو زبانه، سیستم‌های ترجمه ماشینی، پیکره‌های موازی، پیکره‌های تطبیقی و وب. حجم گسترده اطلاعات موجود در وب به زبانهای مختلف و همچنین امکان دسترسی سریع و آسان به این اطلاعات ، وب را به منبعی مناسب برای این منظورتبدیل کرده است . دراین پایان‌نامه استفاده از وب به عنوان منبعی برای استخراج دانش ترجمه برای استفاده در بازیابی اطلاعات بین زبانی بین دو زبان فارسی و انگلیسی بررسی شده است. دراین پژوهش به سه روش ازمنابع موجود در وب استفاده کرده‌ایم. درگام اول این پژوهش با استفاده از اخباردوخبر گزاری بی‌بی‌سی و همشهری پیکره تطبیقی می‌سازیم. درساخت این پیکره علاوه بر معیار ''شباهت محتوایی و تاریخ انتشار" از دو معیار ''شباهت محتوایی و شباهت موضوعی" نیز استفاده کرده‌ایم. سپس ازپیکره تطبیقی ایجاد شده دانش ترجمه را استخراج کرده‌ایم. با استفاده ازپیکره تطبیقی ترجمه گروهی ازکلمات را نمی‌توان یافت، ازجمله کلمات خارج از واژگان. همچنین ممکن است ترجمه یک سری ازکلمات به سمت حوزه خاصی تمایل پیدا کند. برای مثال به دلیل حجم بالای اخبار سیاسی ترجمه بسیاری ازکلمات ممکن است به سمت این حوزه متمایل شود. درگام بعدی این پژوهش از ویکی‌پدیا به عنوان یک منبع دانش ترجمه استفاده کرده و واژه‌نامه ارتباطی دو زبانه فارسی و انگلیسی را استخراج کرده‌ایم. در مرحله بعد با استفاده از موتورجستجوی گوگل از منبع دانش دیگری در وب یعنی صفحات دو زبانه وب بهره‌برده‌ایم. برتری استفاده از این منبع امکان استخراج ترجمه انواع کلمات مربوط به حوزه‌های مختلف دانش،ازجمله کلمات خارج از واژگان می‌باشد. در نهایت روشی برای ترکیب دانش ترجمه کاوش شده با استفاده از منابع مختلف دانش ترجمه و روشی برای استفاده از دانش زمینه پرس‌ وجوها برمبنای اصلاح امتیازدرگراف اطلاعات متقابل ارائه داده‌ایم. نتایج آزمایش‌ها نشان می‌دهند که وب منبع مناسبی برای استخراج دانش ترجمه برای استفاده دربازیابی اطلاعات بین زبانی است. با استفاده از ترجمه‌های استخراج شده از وب می‌توان باترجمه‌ی کلمات وهمچنین با استخراج کلمات مرتبط به آنها، دقت بازیابی را بهبود داد. همچنین آزمایش‌هانشان داده است که ترکیب دانش ترجمه استخراج شده ازمنابع مختلف موجود دروب،با برطرف کردن نقاط ضعف واستفاده مفیدازنقاط قوت یکدیگر،منبع دانش مفیدی در اختیارما قرارمی‌دهدکه استفاده از آن دربازیابی اطلاعات بین زبانی، باعث افزایش چشم‌گیرکارایی بازیابی می‌شود.
    Abstract
    With the fast expansion of the World Wide Web and the growth of the amount of information in different languages and the interest of users to use the information in different languages, the task of cross language information retrieval (CLIR) has become very important. In CLIR, the queries and documents are in different languages and should first be translated to the same language. One of the most important issues in CLIR is where to obtain the translation knowledge. Different translation resources have been used for this purpose, such as dictionaries, machine translation systems, parallel corpora, comparable corpora and the web. The web is a resource that contains a lot of information in different languages and is easily accessible. In this thesis, using the web as a translation resource for cross language information retrieval in Persian and English languages is studied. We use the Web in three different ways for this purpose. First, we use two independent news collections: BBC News in English and Hamshahri news in Persian that are published in the web to construct a big Persian-English comparable corpus. To align the documents we use two groups of criteria. First, we align the documents based on “content similarity and publication date” and second, we align the documents based on “content similarity and topic similarity”. At the next step, we use Wikipedia as a second useful translation resource on the web. We align titles of documents in Wikipedia and mine translation knowledge using the alignments. Finally, we use Google search engine to mine translation knowledge from the snippets of bilingual documents on the web. We combine the language models of translations extracted from different resources and adjust the scores along the mutual information graph to improve the quality. Experimental results show that translating queries using the translation knowledge mined from the web is a useful method for cross language information retrieval. Evaluation results show that translating queries using the combination of query language models of mined translation knowledge, significantly outperforms using simply each of translation resources and also outperforms the CLIR task that uses dictionary or previously constructed comparable corpus. Moreover, the presented methods are especially effective in translating Out Of Vocabulary words and also expanding query words based on their related words.