عنوان پایاننامه
کاوش وب برای بازیابی اطلاعات بین زبانی فارسی-انگلیسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه پردیس 2 فنی شماره ثبت: E 2153;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 55456
- تاریخ دفاع
- ۱۴ تیر ۱۳۹۱
- دانشجو
- زهرا رحیمی
- استاد راهنما
- آزاده شاکری
- چکیده
- باگسترش روزافزون اطلاعات به زبانهای مختلف دردنیای وب وافزایش نیازکاربران به استفاده از اطلاعات به زبانهای مختلف،سیستمهای بازیابی اطلاعات بین زبانی اهمیت ویژهای پیداکردهاند. سیستمهای بازیابی اطلاعات بین زبانی سیستمهایی هستندکه بتوانندازمرزبین زبانها عبورکنند. درچنین سیستمهایی اسناد و پرس وجو در دوزبان مختلف هستند، به همین دلیل امکان تطابق مستقیم پرسوجو و اسناد وجود ندارد وابتدا باید آنها را به زبانی مشترک ترجمه کرد. برای ترجمه پرس و جوها منابع ترجمه مختلفی مورد استفاده قرار میگیرد، ازجمله واژهنامههای دو زبانه، سیستمهای ترجمه ماشینی، پیکرههای موازی، پیکرههای تطبیقی و وب. حجم گسترده اطلاعات موجود در وب به زبانهای مختلف و همچنین امکان دسترسی سریع و آسان به این اطلاعات ، وب را به منبعی مناسب برای این منظورتبدیل کرده است . دراین پایاننامه استفاده از وب به عنوان منبعی برای استخراج دانش ترجمه برای استفاده در بازیابی اطلاعات بین زبانی بین دو زبان فارسی و انگلیسی بررسی شده است. دراین پژوهش به سه روش ازمنابع موجود در وب استفاده کردهایم. درگام اول این پژوهش با استفاده از اخباردوخبر گزاری بیبیسی و همشهری پیکره تطبیقی میسازیم. درساخت این پیکره علاوه بر معیار ''شباهت محتوایی و تاریخ انتشار" از دو معیار ''شباهت محتوایی و شباهت موضوعی" نیز استفاده کردهایم. سپس ازپیکره تطبیقی ایجاد شده دانش ترجمه را استخراج کردهایم. با استفاده ازپیکره تطبیقی ترجمه گروهی ازکلمات را نمیتوان یافت، ازجمله کلمات خارج از واژگان. همچنین ممکن است ترجمه یک سری ازکلمات به سمت حوزه خاصی تمایل پیدا کند. برای مثال به دلیل حجم بالای اخبار سیاسی ترجمه بسیاری ازکلمات ممکن است به سمت این حوزه متمایل شود. درگام بعدی این پژوهش از ویکیپدیا به عنوان یک منبع دانش ترجمه استفاده کرده و واژهنامه ارتباطی دو زبانه فارسی و انگلیسی را استخراج کردهایم. در مرحله بعد با استفاده از موتورجستجوی گوگل از منبع دانش دیگری در وب یعنی صفحات دو زبانه وب بهرهبردهایم. برتری استفاده از این منبع امکان استخراج ترجمه انواع کلمات مربوط به حوزههای مختلف دانش،ازجمله کلمات خارج از واژگان میباشد. در نهایت روشی برای ترکیب دانش ترجمه کاوش شده با استفاده از منابع مختلف دانش ترجمه و روشی برای استفاده از دانش زمینه پرس وجوها برمبنای اصلاح امتیازدرگراف اطلاعات متقابل ارائه دادهایم. نتایج آزمایشها نشان میدهند که وب منبع مناسبی برای استخراج دانش ترجمه برای استفاده دربازیابی اطلاعات بین زبانی است. با استفاده از ترجمههای استخراج شده از وب میتوان باترجمهی کلمات وهمچنین با استخراج کلمات مرتبط به آنها، دقت بازیابی را بهبود داد. همچنین آزمایشهانشان داده است که ترکیب دانش ترجمه استخراج شده ازمنابع مختلف موجود دروب،با برطرف کردن نقاط ضعف واستفاده مفیدازنقاط قوت یکدیگر،منبع دانش مفیدی در اختیارما قرارمیدهدکه استفاده از آن دربازیابی اطلاعات بین زبانی، باعث افزایش چشمگیرکارایی بازیابی میشود.
- Abstract
- With the fast expansion of the World Wide Web and the growth of the amount of information in different languages and the interest of users to use the information in different languages, the task of cross language information retrieval (CLIR) has become very important. In CLIR, the queries and documents are in different languages and should first be translated to the same language. One of the most important issues in CLIR is where to obtain the translation knowledge. Different translation resources have been used for this purpose, such as dictionaries, machine translation systems, parallel corpora, comparable corpora and the web. The web is a resource that contains a lot of information in different languages and is easily accessible. In this thesis, using the web as a translation resource for cross language information retrieval in Persian and English languages is studied. We use the Web in three different ways for this purpose. First, we use two independent news collections: BBC News in English and Hamshahri news in Persian that are published in the web to construct a big Persian-English comparable corpus. To align the documents we use two groups of criteria. First, we align the documents based on “content similarity and publication date” and second, we align the documents based on “content similarity and topic similarity”. At the next step, we use Wikipedia as a second useful translation resource on the web. We align titles of documents in Wikipedia and mine translation knowledge using the alignments. Finally, we use Google search engine to mine translation knowledge from the snippets of bilingual documents on the web. We combine the language models of translations extracted from different resources and adjust the scores along the mutual information graph to improve the quality. Experimental results show that translating queries using the translation knowledge mined from the web is a useful method for cross language information retrieval. Evaluation results show that translating queries using the combination of query language models of mined translation knowledge, significantly outperforms using simply each of translation resources and also outperforms the CLIR task that uses dictionary or previously constructed comparable corpus. Moreover, the presented methods are especially effective in translating Out Of Vocabulary words and also expanding query words based on their related words.