عنوان پایاننامه
بهبود مترجم ماشینی با استفاده از ابزار پس ویرایش
- رشته تحصیلی
- مهندسی فناوری اطلاعات
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2917;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 74264
- تاریخ دفاع
- ۲۲ اسفند ۱۳۹۴
- دانشجو
- زهرا طاهری
- استاد راهنما
- هشام فیلی
- چکیده
- با توجه به پیشرفت های قابل توجه در صنعت ترجمه ی ماشینی و نیاز روز افزون به ترجمه، پس ویرایش ترجمه های خودکار در حال تبدیل شدن به یک امر لازم و معمول در ترجمه است. بدین جهت در این پژوهش به ارائه ی یک ابزار پس ویرایش با نام فرازین بار پرداخته می شود که دارای دو ویژگی اصلی است: فراهم آوردن محیطی ساده و کارا برای پس ویرایش ترجمه های ماشینی از سامانه های مترجم ماشینی مختلف با هدف دستیابی به کیفیت ترجمه ی قابل انتشار و پس ویرایش خودکار بخش هایی از ترجمه های ماشینی. فرازین بار قادر است اطلاعاتی نظیر اطلاعات جا به جایی کلمات را از فرایند پس ویرایش استخراج و ذخیره نماید. این اطلاعات به منظور آموزش یک واحد پس ویرایش خودکار که به ابزار متصل است، استفاده می شود. واحد پسویرایش خودکار به منظور پسویرایش خودکار حروف اضافه در ترجمههای ماشینی طراحی و پیادهسازی گردیده است. این واحد، از روش یادگیری مبتنی بر تبدیل افزایشی برای اصلاح خودکار ترجمه¬ی حروف اضافه استفاده می نماید. روش یادگیری مبتنی بر تبدیل افزایشی گسترشی بر الگوریتم یادگیری مبتنی بر تبدیل است که امکان استفاده ی مستمر الگوریتم از اطلاعات پس ویرایش کاربران را به منظور بهبود ترجمه ی ماشینی فراهم می آورد. قواعد اصلاح کننده در روش پیشنهادی با استفاده از یک پیکره ی موازی شامل ترجمه ی ماشینی و نسخه ی پس ویرایش شده ی آن ایجاد می شوند. آزمایش های انجام شده در این پژوهش شامل دو بخش است: آزمایش ابزار پس ویرایش و آزمایش واحد پس ویرایش خودکار. آزمایش های انجام شده بر روی ابزار نشان می دهد که استفاده از این ابزار، سرعت ترجمه را نسبت به ترجمه ی دستی تا 10 درصد افزایش می دهد در حالی که کیفیت ترجمه ی حاصل با کیفیت ترجمه ی دستی یکسان است. آزمایش های انجام شده بر روی واحد پس ویرایش خودکار نشان می دهد که با استفاده از روش پس ویرایش خودکار حروف اضافه، کیفیت ترجمه ی ماشینی تا 5.1 درصد افزایش می یابد. کیفیت ترجمه با معیار بلو اندازه گیری شده است. این میزان در روش معیار 4.6 درصد بوده است. واژههای کلیدی: ترجمه ی ماشینی، پس ویرایش، ابزار پس ویرایش، پس ویرایش خودکار، بهبود ترجمه ی ماشینی
- Abstract
- Given the significant improvements in Machine Translation (MT) quality and the increasing demand for translations, post-editing of automatic translations is becoming a popular practice in the translation industry. This project presents FarazinBar, an offline and open-access post-editing tool with two main purposes: providing a simple and efficient environment for post-editing of machine translations from any MT system to reach publishable quality and automatic post-editing of machine translations. FarazinBar is able to collect word level information such as words substitutions from the post-editing process. That information is used to train an automatic post-editing module which is plugged in the tool. The automatic post-editing module uses incremental transformation based learning (TBL) for automatic correction of prepositions in machine translated texts. The main reason for choosing prepositions rather than other POS tags is that the presented tool has been released recently and therefore the collected post-editing data is limited. This limited data could be used as training data in incremental TBL method for automatic post-editing of prepositions while other POS tags need more training data. Incremental TBL is an extension to TBL algorithm that leads to continues usage of user’s edits in order to improve the machine translation. Correction rules are learned based on a parallel corpus of machine translation and post-edited version of these translations. FarazinBar has no limits to the source and target languages of files, but the experiments of this paper are based on English-Persian parallel corpora. These experiments consists of two parts: assessing the post-editing tool and assessing the automatic post-editing module. The results of experiments carried out on the tool show that using the proposed tool for post-editing the machine translated texts decreases the translation time up to an average of 10 percent compared to manual translation, while it maintains the same quality as manual translation. The experiment on the automatic post-editing module results in an increase of 5.1% in machine translation quality, measured using the Bleu metric. Keywords Machine Translation, Post-Editing, Post-Editing Tool, Automatic Post-Editing, TBL, Machine Translation Improvement