عنوان پایاننامه
ارائه یک سیستم مترجم ماشینی آماری فارسی به انگلیسی
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- کارشناسی ارشد
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 2209;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 57408
- تاریخ دفاع
- ۲۱ اسفند ۱۳۹۱
- دانشجو
- سامان نامدار
- استاد راهنما
- هشام فیلی
- چکیده
- ترجمه خودکار متون یکی از مهمترین زمینههای پردازش زبان طبیعی است. متأسفانه فعالیتهای کمی برای ترجمه فارسی به انگلیسی صورت گرفته است. در این پروژه علاوه بر بررسی این فعالیتها، با استفاده از ترکیب رویکردهای مبتنی بر قاعده و آماری، یک مترجم ماشینی فارسی به انگلیسی پیادهسازی شده است. برای آموزش مترجم ماشینی آماری کمک شد تا پیکرهای با بیش از 5/5 میلیون کلمه ساخته شود. تحلیلکنندههای تصریفی نیز برای تقطیع تکواژههای تصریفی وابسته از واژههای فارسی و انگلیسی پیادهسازی شدهاند. با توجه به نتایج وقتی ساختار کلمات دو زبان از لحاظ تصریفی یکسان شوند، ترجمه بهتری به دست میآید. در این پروژه طرحهای مختلف برای تقطیع تکواژهها در ترجمه فارسی به انگلیسی ارائه شده است. در طرح تقطیع تکواژی آگاه به فعل مرکب، افعال مرکب زبانهای انگلیسی و فارسی نیز به روش مبتنی بر قاعده تشخیص داده شدهاند. مجموعهی آزمون استانداردی با 393 جمله که از پیکره موازی استخراج گردیده، تهیه شده است و این مجموعه دارای 4 منبع (ترجمههای مختلف) است. طرحهای پیشنهاد شده، ترجمههای بهتری برای این مجموعه آزمون نسبت به مترجم گوگل ارائه دادهاند. با توجه به نتایج، طرح دانهبندی شدهی آگاه به فعل مرکب منجر به بهبود سیستم پایه به مقدار 4 واحد در معیار ارزیابی BLEU بوده است. همچنین عمل آموزش روی پیکرههای با اندازههای کوچک، متوسط و بزرگ انجام شده است که در تمامی این آموزشها بهبود کیفیت ترجمه با استفاده از تقطیع تکواژههای تصریفی وابسته اثبات شده است. واژههای خارج از واژهنامه نیز به نصف کاهش یافتهاند و معیارهای ارزیابی دیگر مانند ارزیابی ترازبندیها بهبود چشمگیری داشتهاند.
- Abstract
- One of the most important fields of natural language processing is automatic translation of text. Unfortunately, a few activities have been done in translating Persian to English. Here by combining statistical and rule based approaches, a Persian to English machine translator is implemented. In order to train statistical-based machine translator, a large parallel corpus containing nearly 5.5 million tokens was built. In this project, for both English and Persian languages, two morphological analyzers are implemented for analyzing dependent inflectional morphemes. According to the results, when inflection structures of the words in both languages are the same, a considerable improvement in the results is achieved. This project has prepared various schemes for segmenting morphemes in translation of Persian to English. Also, compound verbs in both languages have determined in compound verb-aware scheme. A set of standard test with 393 sentences from a parallel corpus has collected. The set includes 4 resources. Also, by using the proposed schemes, better translation can be acquired than using Google Translator. By using compound verb-aware scheme, an improvement about 4 points respect to BLEU measure is retrieved. The system is trained on different size corpora. In each case the translation quality measure is improved while OOV rate is reduced to half and other evaluation criteria such as alignment quality are improved significantly.